• No se han encontrado resultados

El análisis de regresión

N/A
N/A
Protected

Academic year: 2018

Share "El análisis de regresión"

Copied!
27
0
0

Texto completo

(1)

Joaquín Aldás Manzano

1

Universitat de València

Dpto. de Dirección de Empresas “Juan José Renau Piqueras”

1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan

(2)

El análisis de regresión

1. ¿Qué es el análisis de regresión?

(Hair, Anderson, Tatham y Black, 1995)

El análisis de regresión es, con mucho la técnica multivariable más utilizada y versátil, aplicable en muchísimos campos de la toma de decisiones en marketing. El análisis de regresión es una técnica estadística utilizada para analizar la relación entre una sola variable dependiente y varias independientes, siendo su formulación básica la siguiente:

Y1 = X1 + X2 + ... + Xn

(métrica) (métricas)

El objetivo de esta técnia es usar las variables independientes, cuyos valores se conocen, para predecir el de la variabla dependiente. Cada variable indepen-diente está ponderada por unos coeficientes que indican la contribución relativa de cada una de las variables para explicar la dependiente.

2 Un ejemplo de aplicación del análisis de regresión

Tal como hemos venido haciendo en temas anteriores, seguiremos los seis pasos imprescindibles para especificar correctamente un modelo multivariable, ilustrando cada uno de ellos con el mismo ejemplo que hemos venido utilizando: el de la empresa HATCO.

Paso 1. Establecimiento de los objetivos

(Hair, Anderson, Tatham y Black, 1995)

Como hemos señalado con anterioridad, el análisis de regresión es una técnica tremendamente flexible y adaptable para analizar cualquier relación de depen-dencia. Para aplicarla correctamente, el investigador debe considerar tres facto-res:

1. Su adecuación al problema que se pretende resolver 2. El establecimiento de una relación estadística

(3)

Veámoslos detenidamente. Respecto a la adecuación al problema que se pretende resolver, la regresión lineal puede aplicarse básicamente a dos tipos de estudios: los de carácter predictivo y los de carácter explicativo. Ambos campos no son necesariamente excluyentes y un análisis de regresión lineal puede ser aplicados a problemas que pretendan los dos tipos de objetivos.

En cuanto al establecimiento de una relación, el análisis de regresión sirve para relaciones estadísticas y no funcionales. Por ejemplo, en una empresa siempre se cumple que:

Costes totales = Coste variables + Costes fijos

Si mi empresa tiene unos costes unitarios de 2 u.m. y produce 100 unidades, con unos costes fijos de 500 u.m., los costes totales necesariamente son de 700 u.m. y cualquier desviación de esta cantidad impicará que no hemos sido capaces de medir adecuadamente los costes unitarios o los fijos, porque la relación entre ambos es la señalada y se cumple siempre. Esta es una relación

funcional.

Sin embargo, si pretendemos relacionar el número de tarjetas de crédito que tiene una familia, con el tamaño de la misma y los ingresos, la relación que establezcamos a través de la regresión lineal será aproximada, no una predic-ción exacta. Esto se debe a que es una relación estadística, dado que siempre habrá un componente aleatorio en la relacion que no podremos controlar. La variable dependiente es una variable aleatoria, del que sólo podremos estimar un valor promedio.

El tercer aspecto importante que hemos señalado, es la selección de las varia-bles dependientes e independientes. Dado que la regresión es una técnica de dependiencia, hay que especificar qué variables son de un tipo y cuáles son de otro, y esta es una decisión que debe adoptar el investigador fundamentándose en un análisis conceptual del problema que está abordando.

(4)

excluidas guardan correlación con las que se mantienen, se estará introdu-ciendo un fuerte sesgo en los resultados. Por lo tanto, y en conclusión, el inves-tigador debe ser muy cuidadoso en el proceso de selección de las variables y, en todo caso, siempre es peor excluir variables relevantes que incluir variables irrelevantes.

Volviendo a nuestro ejemplo de HATCO, el director de esta empresa está muy interesado en ser capaz de determinar si el grado de relación de los clientes con su empresa (medido mediante X9 que, recordemos, era el porcentaje que suponían para cada cliente las compras a HATCO sobre el total de las compras que realizan) tiene o no que ver con la percepción que estos tienen de HATCO, medida esta percepción mediante las variables:

X1 Rapidez de servicio X2 Nivel de precios X3 Flexibilidad de precios X4 Imagen del fabricante X5 Calidad del servicio X6 Imagen de los vendedores X7 Calidad del producto

considerando el director que parece lógico en base a su experiencia suponer que el grado de relación de los clientes puede estar influenciado por esas variables (establece así cuáles son las dependientes y la independiente) y encontrádonos ante una relación estadística, dado que se incluyen percepciones de los clientes que, evidentemente, están sujetas a error.

Paso 2. Desarrollo del plan de análisis

En el diseño de un plan de análisis basado en la regresión lineal, el investigador debe tener en cuenta un tema fundamental: el tamaño de la muestra.

(5)
[image:5.596.126.509.231.384.2]

a la probabilidad de que un R2 sea significativo, dado un nivel de signficativi-dad, un tamaño muestral y un número de variables independientes predetermi-nados. El cuadro 1 resume estas relaciones y debe tenerse en cuenta.

Cuadro 1. Valor mínimo del R2 que puede ser considerado estadísticamente significativo con una probabilidad del 80% para diversos tamaños muestrales,

número de variables independientes y diversos niveles de significación

2 2 1 1 3 2 2 1

1.000500 3 3 4 6 3 4 5 9

8 6 5 4 11 8 7 5

250 13 16 20 26 10 12 15 21

10050 23 29 36 49 19 23 29 42 --64 48 39 --71 56 45

20 2 5 10 20 2 5 10 20

Nivel de significación = 0.05 Número de variables independientes Nivel de significación = 0.01

Número de variables independientes Tamaño

Muestral

Fuente: Cohen y Cohen (1983)

Tabla que debe ser leída de la siguiente forma. Tomando el primer valor por la izquierda (45), querrá decir que una regresión con 20 observaciones y dos varia-bles independientes, requiere de un R2 de por lo menos 0.45 para que la relación pueda considerarse estadísticamente significativa con una probabilidad del 80% si el nivel de significación se ha establecido en 0.01. En esta tabla se aprecia la fuerte influencia que ejerce el tamaño muestral sobre el poder de la regresión. Si, en el mismo ejemplo anterior, se pasa de una muestra de 20 individuos a 100, bastará que el R2 sea superior a 0.05 para que la relación devenga significativa.

El tamaño de la muestra también afecta a la generalizabilidad de los resultados que se obtengan a través del ratio entre observaciones y variables independien-tes. Una regla general es que este ratio nunca debe caer por debajo de cinco, es decir que para que los resultados sean generalizables nunca deben existir menos de cinco observaciones por cada variable independiente. Aunque este es el valor mínimo, el valor deseable oscila entre 15-20 observaciones por variable consi-guiendo que si la muestra es representativa, los resultados sean generalizables. En el caso de que se utilice un procedimiento de regresión “paso a paso” (que veremos con posterioridad), el nivel recomendado pasa a ser de 50 a 1.

(6)

considerarse que existen relaciones significativas cuando se alcancen R2 superiores a 0.2 a un nivel de significación de 0.01 y superiores a 0.15 si el nivel de significación se relaja a 0.05.

Asimismo, dado que se dispone de 7 variables independientes este tamaño muestral se mueve en el entorno del ratio 15 a 1 recomendado.

Paso 3. Condiciones de aplicabilidad del análisis de

regresión

Las condiciones de aplicabilidad del análisis de regresión, deben considerarse en dos etapas. Antes de estimar el modelo, sólo pueden comprobarse en las varia-bles independientes y la dependiente de manera individual. Después de estimar el modelo, podrá evaluarse si se cumplen las condiciones de manera conjunta y, por ello, los resultados son fiables.

Recordemos que las tres condiciones que debían cumplir las variables depen-dientes e independepen-dientes eran las de linealidad, homogeneidad de varianzas y normalidad. En el tema 1 de este curso, ya indicamos como comprobar estas condiciones respecto a todas las variables dependientes e independientes que van a ser utilizadas. Dejamos como ejercicio, el verificar que:

1. Los gráficos de dispersión no parecer indicar la existencia de relacio-nes no lineales entre la variable dependiente y las independientes. 2. Solamente la variable X2 viola la hipótesis de homoscedasticidad. 3. X2, X4 y X6 violan las hipótesis de normalidad.

Puede demostrarse que el análisis de regresión no se ve muy afectado por la heteroscedasticidad. La ausencia de normalidad puede corregirse, como se indicó, transformando las variables originales mediante logaritmos neperianos. El investigador debería estimar el modelo considerando las variables transfor-madas y sin transformar, para después, cuando se compruebe si, de manera global, se violan las hipótesis señaladas, mantener las variables de la manera que menos distorsion provoquen respecto al cumplimiento de estas hipótesis.

Paso 4. Estimación del modelo y establecimiento del

ajuste del mismo.

(7)

del modelo, el investigador está preparado para estimar el modelo y establecer la bondad del mismo (su ajuste). Esta tarea se desdobla en tres decisiones:

1. Seleccionar un método para estimar el modelo.

2. Establecer la significatividad global del modelo estimado y de los coeficientes de cada una de las variables independientes.

3. Determinar si hay observaciones que ejercen una influencia no desea-ble sobre los resultados.

En esta primera decisión, el investigador debe optar entre dos alternativas: decidir aquellas variables independientes que, según su conocimiento del tema pueden ejercer algún tipo de influencia sobre la dependiente, e incluirlas, o bien recurrir a procedimientos secuenciales, en los cuales es el propio programa quien va introduciendo y eliminando del análisis aquellas variables que asegu-ren la mejor especificación del modelo. En el primer tipo de aproximación, el investigador debe estar muy seguro de que no está dejando fuera variables relevantes, ni introduciendo variables irrelevantes. En el segundo enfoque, el proceso iterativo asegura que se acaban considerando las variables que mejor pueden explicar el comportamiento de la dependiente, por este motivo desarro-llaremos en este tema este último enfoque.

Los métodos secuenciales estiman la ecuación de regresión añadiendo o elimi-nando (según los dos enfoques que veremos) aquellas variables que cumplen determinados criterios. Esta aproximación ofrece un procedimiento objetivo para seleccionar las variables, que maximiza la capacidad predictiva del modelo con el menor número posible de variables independientes. Aunque este enfoque parece ideal, hay que tener en cuenta que es muy sensible al efecto de la multi-colinealidad y, por ello, su determinación y corrección es crítica en estos modelos.

Los métodos secuenciales pueden ser de dos tipos:

Eliminación hacia atrás. Es básicamente un procedimiento de prueba y error. Comienza estimando una recta de regresión con todas las variables indepen-dientes posibles y luego va eliminando aquellas que no contribuyen significati-vamente. Los pasos son los siguientes:

(8)

2. Cálculo de un estadístico F parcial para cada variable que computa la varianza que explicaría el modelo si se eliminasen todas las varia-bles menos esa.

3. Se eliminan las variables con F parciales que indican que no realizan una contribución estadísticamente significativa.

4. Después de eliminar esas variables se vuelve a estimar la recta de regresión con las que quedan.

5. Se vuelve al paso 2 hasta que sólo quedan las variables significativas.

Estimación paso a paso. Es el procedimiento secuencial más utilizado dado que permite analizar la contribución de cada variable independiente por separado al modelo de regresión. Se diferencia del anterior en que no incluye todas las variables y luego las va eliminando, sino que las evalúa una a una antes de incorporarlas al modelo y, además, puede eliminar una variable después de haberla introducido en una etapa anterior. Los pasos que sigue son los siguien-tes:

1. Comienza con el modelo de regresión más simple, que es el formado por la constante y aquella variable que está más correlacionada con la variable dependiente.

2. Examina los coeficientes de correlación parcial para encontrar la variable independiente la mayor proporción del error que se comete con la recta de regresión anterior.

3. Vuelve a calcular la ecuación de regresión utilizando ahora las dos variables independientes seleccionadas y analiza el valor de la F parcial de la primera variable para ver si todavía lleva a cabo una contribución significativa dado que hemos incluido una variable adicional. Si no lo hace la elimina y en caso contrario la mantiene. 4. El proceso continúa examinando todas las variables independientes

para ver cual debe ser introducida en la ecuación. Cuando se incluye una nueva se examinan las ya introducidas para determinar cuál debe permanecer y así hasta que ninguna variable cumple el criterio de entrada.

(9)

siguientes que realiza el programa), se recoge en el cuadro 4 y debemos familia-rizarnos con los términos que en él figuran.

Coeficiente R

Se le conoce también como R múltiple y es el coeficiente de correlación (en el primer paso 0.701, según el cuadro 3) entre la variable dependiente y las que se incorporan al modelo (como sólo se incorpora X5, coincide con la correlación que vimos antes).

Coeficiente R2

Es el coeficiente de correlación anterior al cuadrado, conocido también como

coeficiente de determinación. Este valor indica el porcentaje de la variación de la variable dependiente que explican las independientes (en este caso sólo X5). La suma total de los cuadrados (3927.309 + 4071.691 = 7999.000), es el error cuadrático que se produciría si utilizáramos sólo la media de la variable depen-diente X9 para predecir su valor real. Vemos que utilizar a X5 para esta predicción, en lugar de a la media de X9, reduce el error en un 49.1% (3927.309/7999.000).

Variables incluidas en el paso 1

Como hemos señalado, en el primer paso sólo se introduce la variable X5. En general, para cada variable que se incluya, el programa calcula una serie de indicadores que debemos comprender: el coeficiente de la variable, su error típico y el valor asociado al mismo. Veámoslos.

Ÿ Coeficiente de la variable. Aparece como B en el cuadro 3. Para la variable

(10)
[image:10.596.132.515.142.584.2]

Cuadro 2. Matriz de correlaciones

1,000 ,676 ,082 ,559 ,224 ,701 ,255 -,192

,676 1,000 -,349 ,509 ,050 ,612 ,077 -,483

,082 -,349 1,000 -,487 ,272 ,513 ,185 ,470

,559 ,509 -,487 1,000 -,116 ,067 -,035 -,448

,224 ,050 ,272 -,116 1,000 ,299 ,788 ,200

,701 ,612 ,513 ,067 ,299 1,000 ,240 -,055

,255 ,077 ,185 -,035 ,788 ,240 1,000 ,177

-,192 -,483 ,470 -,448 ,200 -,055 ,177 1,000

80,798 8,031 ,880 6,967 2,280 4,732 1,767 -2,743

8,031 1,744 -,551 ,933 7,533E-02 ,607 7,881E-02 -1,010

,880 -,551 1,430 -,808 ,368 ,461 ,171 ,890

6,967 ,933 -,808 1,922 -,182 6,939E-02 -3,718E-02 -,985

2,280 7,533E-02 ,368 -,182 1,280 ,254 ,687 ,359

4,732 ,607 ,461 6,939E-02 ,254 ,564 ,139 -6,57E-02

1,767 7,881E-02 ,171 -3,718E-02 ,687 ,139 ,594 ,216

-2,743 -1,010 ,890 -,985 ,359 -6,57E-02 ,216 2,513

, ,000 ,209 ,000 ,012 ,000 ,005 ,028

,000 , ,000 ,000 ,309 ,000 ,222 ,000

,209 ,000 , ,000 ,003 ,000 ,032 ,000

,000 ,000 ,000 , ,125 ,255 ,366 ,000

,012 ,309 ,003 ,125 , ,001 ,000 ,023

,000 ,000 ,000 ,255 ,001 , ,008 ,293

,005 ,222 ,032 ,366 ,000 ,008 , ,039

,028 ,000 ,000 ,000 ,023 ,293 ,039 ,

(11)
[image:11.842.301.592.317.446.2]

Cuadro 3. Salida del procedimiento “paso a paso”

,701a ,491 ,486 6,446 ,491 94,525 1 98 ,000 374,664 ,530 111,980 379,875

,869b ,755 ,750 4,498 ,264 104,252 1 97 ,000 303,680 ,261 6,243 311,495

,876c ,768 ,761 4,395 ,014 5,607 1 96 ,020 300,003 ,251 2,711 310,424 1,910 Modelo 1 2 3 R R cuadrado R cuadrado corregida Error típ. de la estimación Cambio en R cuadrado Cambio

en F gl1 gl2

Sig. del cambio en F Cambiar los estadísticos

Criterio de información de Akaike Criterio de predicción de Amemiya Criterio de predicción de Mallows Criterio bayesiano de Schwarz Criterio de selección

Durbin-Watson

Resumen del modelod

Variables predictoras: (Constante), Servicio a.

Variables predictoras: (Constante), Servicio, flexibilidad de precios b.

Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores c.

Variable dependiente: Nivel de uso d.

3927,309 1 3927,309 94,525 ,000a 4071,691 98 41,548

7999,000 99

6036,513 2 3018,256 149,184 ,000b 1962,487 97 20,232

7999,000 99

6144,812 3 2048,271 106,049 ,000c 1854,188 96 19,314

7999,000 99 Regresión Residual Total Regresión Residual Total Regresión Residual Total Modelo 1 2 3 Suma de cuadrados gl Media

cuadrática F Sig. ANOVAd

Variables predictoras: (Constante), Servicio a.

Variables predictoras: (Constante), Servicio, flexibilidad de precios b.

Variables predictoras: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores

c.

(12)

21,653 2,596 8,341 ,000 16,502 26,804

8,384 ,862 ,701 ,072 9,722 ,000 6,673 10,095 ,701 ,701 ,701 1,000 1,000 -3,489 3,057 -1,141 ,257 -9,556 2,578

7,974 ,603 ,666 ,050 13,221 ,000 6,777 9,171 ,701 ,802 ,665 ,996 1,004

3,336 ,327 ,515 ,050 10,210 ,000 2,688 3,985 ,559 ,720 ,514 ,996 1,004 -6,514 3,248 -2,005 ,048 -12,962 -,065

7,623 ,608 ,637 ,051 12,548 ,000 6,417 8,829 ,701 ,788 ,617 ,937 1,068

3,376 ,320 ,521 ,049 10,560 ,000 2,742 4,011 ,559 ,733 ,519 ,993 1,007

1,400 ,591 ,120 ,051 2,368 ,020 ,226 2,574 ,255 ,235 ,116 ,940 1,064 (Constante)

Servicio (Constante) Servicio flexibilidad de precios (Constante) Servicio flexibilidad de precios Imagen de los vendedores Modelo

1

2

3

B Error típ. Coeficientes no estandarizados

Beta Error típ. Coeficientes estandarizados

t Sig.

Límite inferior

Límite superior Intervalo de confianza

para B al 95%

Orden

cero Parcial Semiparcial Correlaciones

Tolerancia FIV Estadísticos de

colinealidad

Coeficientesa

(13)

Ÿ Valor t de las variables que están en la ecuación. El valor t de las variables que

están en la ecuación, permite contrastar la hipótesis nula de que el coeficiente de esa variable es cero con lo que no tendría ninguna capacidad esa variable de explicar la dependiente. Pero intentar contrastar o rechazar esa hipótesis nula mediante el valor t obligaría a que conociésemos todos sus valores críticos a distintos niveles de significación y grados de libertad (en concreto a un nivel de 0.01 y para 98 grados de libertad, el nivel crítico es de 1.658 y como el valor de t para el coeficiente de X5 es 9.722, podríamos rechazar la hipótesis nula de que el coeficiente es cero y afirmar que la variable X5 tiene capacidad explica-tiva de la variable dependiente). Para evitar tener que conocer esos valores críticos, el programa (cuadro 3) ofrece su nivel de significación (p=Sig.=0.000) que es mucho más fácil de analizar. Si es inferior a 0.01 (0.05 según el criterio del investigador), puede rechazarse la hipótesis nula y concluir la significativi-dad del parámetro.

Variables no incluidas en la ecuación en el paso 1

Aunque X5 ha sido incluida en la regresión, disponemos de otras 6 variables que potencialmente podrían incluirse y mejorar la capacidad predictiva del modelo significativamente (cuadro 4). Pues bien, para estas variables, existen dos medidas para establecer cuál puede ser su contribución y determinar si las incluimos o no: la correlación parcial y sus valores t.

Ÿ Correlación parcial. Es una medida de la variación de la variable dependiente

Y (X9) que no está explicada por las variables que sí se han incluido en la regresión (en este primer paso, solamente X5) y que puede explicarse por cada una de las variables restantes. Hay que ser muy cuidadoso al interpretar este indicador. Por ejemplo el de la variable X3 (flexibilidad de precios) toma el valor 0.720. Esto no significa que X3 explique el 72% de la varianza total, sino que el 51.8% (72.02 = coeficiente de determinación parcial) de la varianza que

no estaba explicada ya por X5 (no de la total) puede ser explicada por X3. Como X5 ya explicaba el 49.1% (.7012), X3 explicará el 26.4% de la varianza

total si la incluimos [(1-49.1%)·51.8% = 26.4].

Ÿ Valores t de las variables que no están en la ecuación. Miden la significación

(14)

flexi-Pues bien, es el momento de decidir cuál de las cuatro variables que pueden entrar en la recta de regresión para mejorar significativamente la capacidad predictiva del modelo, va a hacerlo. Podíamos pensar que la variable que entrará será aquella que, inicialmente, tenía una mayor correlación con la variable dependiente (véase cuadro 4), en cuyo caso debería ser X1 dado que su coeficiente de correlación es el mayor (0.676) después de la variable que entró inicialmente X5 (0.701). Pero el criterio de entrada no es este, sino qué variable tiene mayor coeficiente de correla-ción parcial con la variable dependiente después de haber incluido a X5 que, como puede comprobarse en el cuadro 4, no es X1 (0.439) sino X3 (0.720). Luego en el siguiente paso estimaremos el modelo con X5, X3 y el término constante.

Vemos, en el cuadro 3 que al añadir la variable X3, el coeficiente de determinación R2 se incrementa en torno al 26.4% (pasa de 0.491 a 0.755). Puede comprobarse

que el coeficiente de la variable X5 apenas cambia (pasa de 8.384 a 7.974) y el de X3 es 3.336, siendo ambos significativos como puede apreciarse en sus respectivos valores de p<0.01.

A continuación volvemos a repetir el proceso para ver si hay más variables candi-datas a entrar en la recta de regresión. Viendo el cuadro 4, observamos que el mayor coeficiente de correlacion parcial lo ostenta X6 imagen de los vendedores (0.235), variable que explica por si sola el 5.6% de la varianza todavía no explicada (0.2352) que es sólo el 1.37% de la varianza total [(1-0.755)·0.56 = 0.0137], siendo

además la única con un valor t significativo (p = 0.02 < 0.05). Por ello, en este segundo paso entraría en el modelo.

(15)
[image:15.612.124.535.119.514.2]

Cuadro 4. Variables excluidas en cada paso

,396a 4,812 ,000 ,439 ,626 1,599 ,626

-,377a -5,007 ,000 -,453 ,737 1,357 ,737

,515a 10,210 ,000 ,720 ,996 1,004 ,996

,016

a

,216 ,830 ,022 ,911 1,098 ,911

,092a 1,242 ,217 ,125 ,942 1,061 ,942

-,154a -2,178 ,032 -,216 ,997 1,003 ,997

,016

b

,205 ,838 ,021 ,405 2,469 ,405

-,020b -,267 ,790 -,027 ,464 2,156 ,464

,095b 1,808 ,074 ,181 ,892 1,121 ,892

,120b 2,368 ,020 ,235 ,940 1,064 ,937

,094b 1,683 ,096 ,169 ,799 1,252 ,797

,030c ,386 ,701 ,040 ,403 2,482 ,403

-,029c -,401 ,690 -,041 ,462 2,162 ,462

-,001c -,009 ,993 -,001 ,357 2,804 ,357

,071c 1,277 ,205 ,130 ,769 1,301 ,769 Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios Imagen del fabricante Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios Imagen del fabricante Calidad del producto Modelo 1 2 3 Beta

dentro t Sig.

Correlación

parcial Tolerancia FIV

Tolerancia mínima Estadísticos de colinealidad

Variables excluidasd

Variables predictoras en el modelo: (Constante), Servicio a.

Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios b.

Variables predictoras en el modelo: (Constante), Servicio, flexibilidad de precios, Imagen de los vendedores c.

Variable dependiente: Nivel de uso d.

En este momento, debe verificarse si el modelo estimado viola o no las hipótesis de normalidad, homoscedasticidad y linealidad, considerando conjuntamente las variables dependientes e independientes que se han incorporado.

(16)
[image:16.612.197.458.165.358.2]

Si no existe linealidad, el gráfico de los residuos estudentizados frente a la variable dependiente debería adoptar una forma curvilínea como la de la figura 1.

Figura 1 Aspecto de gráfico de residuos en caso de no linealidad

Residuos estudentizados

V. dependiente

.

. .

. ..

.

. . .

.

.

.

.

. ..

. .

. ..

.

si se cumple la linealidad, estos residuos no deberán mostrar un patrón marcado alguno. En nuestro ejemplo, el gráfico de residuos es el que recoge la figura 5.2 que, como se puede observar no muestra el aspecto del gráfico de la figura 5.1, más bien al contrario los residuos están dispersos sin forma definida.

Figura 2 Gráfico de residuos ejemplo de HATCO

Gráfico de dispersión

Variable dependiente: Nivel de uso

Regresión Valor pronosticado

70 60

50 40

30 20

Regresión Residuo

10

0

-10

-20

[image:16.612.212.456.477.666.2]
(17)
[image:17.612.209.452.184.529.2]

los gráficos de residuos estudentizados que, para constatar la existencia de varian-zas distintas, debería adoptar la forma de triángulo od diamante que se muestra la figura 3.

Figura 3. Patrones típicos de heteroscedasticidad

Residuos estudentizados V. dependiente Residuos estudentizados V. dependiente

.

..

..

..

. .

.

.

.

.

.

.. .

. .

. ..

.

..

..

.

.. .

..

.

.

.

...

.

.

..

.

. .

.

.

.

.

.

.

...

..

. .

. . .

.

.

.

....

...

.

.

. ....

...

. .

. ... .

.

. .

. .

.

.

.

. . . ..

. ...

...

..

.

.

.

...

.. ...

.

. . ....

....

..

....

.

.

. ..

.

.

.

.

.

.

.

que, comparados con la figura 2 que resume los resultados para nuestra base de ejemplo, permiten constatar el cumplimiento de la hipótesis de homoscedasticidad.

(18)

SPSS proporciona el valor de 1.910 del estadístico de Durbin-Watson, como recoge el cuadro 3, luego podemos considerar que los datos cumplen la hipótesis de independencia de los residuos.

[image:18.612.242.428.327.524.2]

La última condición de aplicabilidad que debe considerarse, es el de normalidad multivariable del término de error. Como indicamos en el primer tema, el mejor procedimiento para detectar la ausencia de normalidad es recurrir a los llamados gráficos q-q donde, si el comportamiento no es normal, los puntos adoptarían patrones sistemáticos por encima o debajo de la línea recta lo que, como puede comprobarse en la figura 6.4, no es el caso en nuestros datos de ejemplo.

Figura 4. Prueba de normalidad de los residuos.

Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Nivel de uso

Prob acum observada

1,00 ,75

,50 ,25

0,00

Prob acum esperada

1,00

,75

,50

,25

0,00

Luego después de comprobar la posible violación de todas las hipótesis, comproba-mos que sólo la violación de la hipótesis de normalidad por parte de las variables X2, X4 y X6 puede ejercer algún tipo de influencia sobre los resultados. Tal como indicamos en el tema 1, procede transformarlas mediante logaritmos y comprobar si los resultados difieren sustancialmente de los que ya hemos obtenido. El cuadro 5 ofrece la solución con las variables transformadas. Puede comprobarse que la capacidad explicativa del modelo apenas mejora (R2 = 0.771 frente a 0.768 en el

(19)

consecuencias de la violación de una de las hipótesis que deben cumplir los datos, apenas ejerce influencia alguna.

En resumen, como se ha podido comprobar, los análisis de los residuos proporcio-nan una buena herramienta para determinar si se están violando las condiciones de aplicabilidad de la técnica de regresión. Con frecuencia este análisis no se lleva a cabo pudiendo provocarse sesgos y errores como la falta de fiabilidad de los test que detectan la significatividad de los coeficientes de la regresión.

[image:19.612.172.486.310.529.2]

La última cuestión que debía analizarse en este paso de la regresión lineal, es si existen valores anómalos de alguna de las variables que intervienen que puedan tener una influencia importante sobre los resultados de la regresión. En la figura 6.5 se ilustran la naturaleza de estas posibles influencias, que pueden ser poco graves, como en el caso a) o tremendamente influyentes, como en el b).

Figura 5. Posible influencia de las observaciones anómalas

¡ ¡

¡ ¡ ¡

l l

¡ ¡

¡ ¡ ¡

l l

l ¡

Observación anómala

Observación normal

(20)
[image:20.842.111.780.140.240.2]

Cuadro 5. Modelo con las variables X2, X4 y X6 transformadas

,701a ,491 ,486 6,446 ,491 94,525 1 98 ,000 374,664 ,530 115,736 379,875 ,869b ,755 ,750 4,498 ,264 104,252 1 97 ,000 303,680 ,261 8,053 311,495

,878c ,771 ,764 4,370 ,016 6,785 1 96 ,011 298,851 ,248 3,317 309,271 1,918 Modelo

1 2 3

R

R cuadrado

R cuadrado corregida

Error típ. de la estimación

Cambio en R cuadrado

Cambio

en F gl1 gl2

Sig. del cambio en F Cambiar los estadísticos

Criterio de información

de Akaike

Criterio de predicción

de Amemiya

Criterio de predicción

de Mallows

Criterio bayesiano

de Schwarz Criterio de selección

Durbin-Watson

Resumen del modelod

Variables predictoras: (Constante), Servicio a.

Variables predictoras: (Constante), Servicio, flexibilidad de precios b.

Variables predictoras: (Constante), Servicio, flexibilidad de precios, LNX6 c.

(21)
[image:21.612.163.498.334.542.2]

La mejor herramienta para identificar a los outliers (observaciones anómalas, o no bien predichas por la recta de regresión) es mediante el análisis de los residuos. Si no están bien predichas esas observaciones por la recta de regresión, sus residuos deben ser grandes. Se trabaja normalmente con los residuos estudentizados, que es un procedimiento de estandarización bastante común, consistente en transformar todos los residuos de tal forma que tengan media 0 y desviación típica 1, sólo que la desviación típica necesaria para estandarizar se calcula omitiendo el caso para el que se está calculando el residuo en ese momento. El trabajar con residuos estudentizados tiene la ventaja de que puede fácilmente considerarse anómala cualquier observación cuyo residuo supere el valor de 1.96 para un nivel de signifi-cación de 0.05. La figura 6.6 muestra que cuatro observaciones (7, 11, 14 y 100) puede ser considerados como outliers y deberían ser eliminados del análisis.

Figura 6.6 Gráfico de los residuos estudentizados

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96

-3 -2 -1 0 1 2 3

7 11 14

100

Limite superior

Limite inferior

Observaciones

Residuos estudentizados

Paso 5. Interpretación de los resultados

Una vez estimado el modelo y llevados a cabo los diagnósticos que confirman la validez de los resultados, podemos escribir nuestra recta de regresión como sigue (ver cuadro 3):

(22)

A título ilustrativo, de un cliente que hubiese valorado los tres atributos (X3, X5 y X6) con un 4, podríamos esperar un nivel de utilización de:

Nivel de uso predicho = – 6,514 + 3,376·4 + 7,623·4 + 1,400·4 = 43,089

es decir, que cabe esperar que comprase el 43% de su maquinaria a HATCO.

Pero, además de predecir el nivel de uso de los productos, los coeficientes de regre-sión nos permiten también establecer la importancia relativa de las variables individuales para predecir la variable dependiente. Como en este caso todas las variables están medidas en la misma escala, las comparaciones pueden efectuarse directamente sobre los coeficientes. Pero en la mayoría de las ocasiones, los coefi-cientes vienen afectados por las diferentes escalas de las variables a las que van asociados, por lo que para efectuar el análisis se ha de recurrir a los coeficientes estandarizados que, en el cuadro 3, venían bajo el título de “Coeficientes estanda-rizados, beta”. En este caso es evidente que la variable X5 (Servicio) es la más importante (0,608) seguida de cerca por X3 flexibilidad de precios (0.521) y mucho más distanciada X6 imagen de los vendedores (0,120).

Debe tenerse alguna cautela, sin embargo, al analizar los coeficientes estandariza-dos. En primer lugar, deben utilizarse solamente en situaciones de baja colineali-dad, como analizaremos inmediatamente. En segundo lugar, los valores beta, solo pueden interpretarse en el contexto de las otras variables de la ecuación, así el valor beta de la variable X5 es importante sólo respecto a X3 y X6, pero no en términos absolutos. Si se hubiera introducido otra variable en la ecuación, el valor beta de X5 hubiera cambiado con casi toda seguridad.

(23)
[image:23.612.198.454.99.283.2]

Cuadro 6. Ejemplo de multicolinealidad

7 14

15

8 17 12 7

7 11 12 9

6 13 10 9

5 9 10 11

4 9 8 11

3 3 8 13

2 5 6 13

1 D A B

Independientes DependienteVariables en el análisis de regresión Caso

Si estimamos las rectas de regresión, estimando por separado A y B como varia-bles independientes, llegaríamos a la siguiente solución:

D = -5 + 1,5 ·A D = 30 - 2,0 ·B

donde es evidente que la relación entre A y D es positiva, y entre B y D negativa. Cuando estimamos la recta de regresión introduciendo simultáneamente A y B, el resultado es el siguiente:

D = 50 -1,0·A - 3,0·B

donde parece ahora que la relación entre A y D es negativa cuando, de hecho, sabemos que no es así. Luego vemos que los efectos de la multicolinealidad pueden ser importantes. Veremos a continuación los mecanismos para detectar la existen-cia de multicolinealidad y para determinar en qué medida está afectando a los coeficientes. De ser esta influencia importante, veremos distintos mecanismos de corrección.

(24)

indepen-0,10, que corresponde a valores de FIV superiores a 10. Este valor se da cuando el coeficiente de determinación de la regresión señalada es de 0,95.

En el caso en que la multicolinealidad sea muy elevada, se proponen normalmente las siguientes soluciones:

1. Eliminar una o más de las variables que estén altamente correladas e identificar otras posibles variables independientes para ayudar en la predicción.

2. Utilizar el modelo con todas las variables sólo con fines predictivos y no intentar en ningún momento interpretar los coeficientes de regresión. 3. Utilizar los coeficientes de correlación simples entre la variable

depen-diente y las independepen-dientes para entender la relación entre ambas varia-bles.

4. Recurrir a procedimientos más sofisticados de análisis de regresión, como la bayesiana o la regresión en componentes principales que, evidente-mente, se alejan del objetivo de este curso.

En el cuadro 3 aparecen, para nuestra base de datos de ejemplo, los estadísticos de tolerancia y FIV de la regresión realizada. Puede comprobarse que los niveles de tolerancia son muy altos (0,937 para X5, 0,993 para X3 y 0,940 para X6) y, en todo caso, superiores al nivel de corte clásico de 0,1. Por ello, la interpretación que hemos realizado de los coeficientes de la regresión, no se ve afectada por la multi-colinealidad.

Paso 6. Validación de los resultados

Una vez estimado y analizado un modelo, el paso siguiente es establecer su genera-lizabilidad, esto es, que represente realmente al conjunto de la población y no sólo a la muestra que lo ha generado. La mejor forma de hacerlo sería ver en qué medida los resultados se compadecen con modelos teóricos previos o trabajos ya validados sobre el mismo tema. Sin embargo, en muchos casos estos resultados o teoría previos no existen y es necesario recurrir a otros procedimientos empíricos de validación.

(25)

de la población. Una nueva muestra asegurará la representatividad de los resulta-dos y puede emplearse de diversas maneras. El modelo estimado sobre la muestra anterior puede predecir valores de la nueva muestra y, de esta manera, establecer alguna medida de los aciertos. Otra alternativa es estimar un nuevo modelo sobre la nueva muestra y luego comparar las dos ecuaciones sobre características tales como: variables incluidas, signo, importancia relativa de las variables y poder predictivo.

La mayoría de las veces, sin embargo, la posibilidad de recoger nuevos datos está limitada por factores como el coste, limitaciones de tiempo o disponibilidad de los encuestados. En este caso, el investigador puede dividir su muestra en dos partes: una submuestra para estimar el modelo y una submuestra de validación usada para evaluar la ecuación. Existen muchos procedimientos para dividir la muestra, ya sean sistemáticos o aleatorios y cada programa estadístico tiene los suyos. En SPSS 7.5, programa que estamos manejando, el procedimiento es el siguiente:

DATOS à SELECCIONAR CASOS à MUESTRA ALEATORIA DE CASOS à APROXIMADAMENTE 50% DE TODOS LOS CASOS

que da lugar a la siguiente sintaxis:

USE ALL.

COMPUTE filter_$=(uniform(1)<=.50).

VARIABLE LABEL filter_$ 'Aproximadamente 50 % de casos (MUESTRA)'.

FORMAT filter_$ (f1.0).

FILTER BY filter_$.

EXECUTE .

donde se crea una variable filtro (filter_$) que toma valores 0 y 1. Se llevará a

(26)

3,761 4,873

4,395

Error típico estimación 0,761 0,704 0,811

R2 ajustado 0,768 0,715 0,824

R2

Ajuste del modelo 2,36 (0,02) 2,441 (0,019)

Valor t (p asociado) 0,120 0,176

Coeficiente beta 1,400 1,283

Coeficiente regresiónX6 NO ENTRA

8,966 (0,000) 8,548 (0,000)

12,54 (0,000)

Valor t (p asociado) 0,637 0,650 0,642 Coeficiente beta 7,623 8,322 6,848 Coeficiente regresiónX5

9,158 (0,000) 5,75 (0,000)

10,5 (0,000)

Valor t (p asociado) 0,521 0,437 0,599 Coeficiente beta 3,376 2,977 3,585 Coeficiente regresiónX3

Variables independientes

Muestra 2 (N = 46) Muestra 1

(N = 54) Muestra total

(N = 100)

Comparando los resultados de la dos regresiones efectuadas sobre la muestra dividida, con la muestra total, se observa que el ajuste de los modelos es muy similar, ya se mida por la R2 como por la R2 ajustada que corrige por el tamaño de

[image:26.612.115.538.101.414.2]
(27)

Referencias bibliográficas

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data

Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall.

COHEN, J. Y COHEN, P. (1983): Apllied Multple Regression / Correlation Analysis

Figure

Cuadro 1. Valor mínimo del R2 que puede ser considerado estadísticamentesignificativo con una probabilidad del 80% para diversos tamaños muestrales,
Cuadro 2. Matriz de correlaciones
Cuadro 3. Salida del procedimiento “paso a paso”
Cuadro 4. Variables excluidas en cada paso
+7

Referencias

Documento similar

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)

Así, antes de adoptar una medida de salvaguardia, la Comisión tenía una reunión con los representantes del Estado cuyas productos iban a ser sometidos a la medida y ofrecía

b) El Tribunal Constitucional se encuadra dentro de una organiza- ción jurídico constitucional que asume la supremacía de los dere- chos fundamentales y que reconoce la separación