INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE
(PRIMERA PARTE)
Eduardo Jiménez Marqués Curso 2004-05
Análisis Multivariante
ÍNDICE
1.
CONCEPTOS GENERALES...12
1.1 INTRODUCCIÓN... 12
1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES...12
1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?...13
1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE... 14
1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ... 14
1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ... 14
1.4.1 TIPOS DE VARIABLES...15
1.5 ESCALAS DE MEDIDA ... 17
1.6 VARIABLES Y ESCALAS DE MEDIDA ... 18
1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS...19
1.7 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES... 20
1.8 BIBLIOGRAFÍA RECOMENDADA... 24
2.
METODOS EXPLICATIVOS O DE DEPENDENCIA ...26
2.1 INTRODUCCIÓN... 26
Análisis Multivariante
3.
REGRESIÓN LINEAL...28
3.1 CONCEPTO... 28
3.1.1 MODELOS ESTOCÁSTICOS...30
3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE... 31
3.2.1 ¿QUÉ NOS INTERESA CONOCER?:...31
3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN... 32
3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN ...32
3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE...33
3.4 COLINEALIDAD ... 36
3.4.1 MATRIZ DE CORRELACIONES...36
3.4.2 CORRELACIÓN PARCIAL ...36
3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE ...37
3.4.4 MULTICOLINEALIDAD...37
3.4.5 EFECTOS DE LA COLINEALIDAD...37
3.4.6 FORMAS DE MEDIR LA COLINEALIDAD ...38
3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...39
3.4.8 COEFICIENTES DE REGRESIÓN ...39
3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN ...41
3.5 MODELOS CON VARIABLES FICTICIAS ... 41
3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT... 42
3.7 EJEMPLO 1... 43
Análisis Multivariante
4.
ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS...52
4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS CUADRADOS ORDINARIOS ... 53
5.
EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ...54
5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:... 54
5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1... 55
5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS... 55
5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON... 56
5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: ... 60
5.6 COEFICIENTE DE DETERMINACIÓN ... 61
5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO: ANALISIS DE LA VARIANZA... 61
5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN... 62
5.9 OTROS AJUSTES DE BONDAD DEL MODELO ... 63
5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR... 64
5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE ... 67
Análisis Multivariante
5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES... 68
5.14 NO AUTOCORRELACIÓN DE ERRORES ... 69
6.
LINEALIDAD EN EL MODELO DE REGRESIÓN ...71
6.1 OTRAS TRANSFORMACIONES... 71
7.
ANÁLISIS DE REGRESIÓN MÚLTIPLE...73
7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN DE CADA VARIABLE, βI... 73
7.2 COEFICIENTE DE DETERMINACIÓN ... 74
7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO: ANALISIS DE LA VARIANZA... 74
7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ... 75
7.5 COLINEALIDAD ... 75
7.6 EFECTOS DE LA COLINEALIDAD ... 76
7.7 FORMAS DE MEDIR LA COLINEALIDAD... 76
7.8 NIVELES DE COLINEALIDAD ... 77
7.9 INTRODUCCIÓN DE VARIABLES BINARIAS... 80
Análisis Multivariante
7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS ... 82
7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ... 85
8.
BIBLIOGRAFÍA ...91
9.
ANÁLISIS DE LA VARIANZA (ANOVA)...93
9.1 CONCEPTO... 93
9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA ... 93
9.3 ANOVA ... 94
9.3.1 TIPOS DE ANOVA ...94
9.4 EXPERIMENTACIÓN... 94
9.5 EL MÉTODO DE EXPERIMENTACIÓN ... 95
9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN ...96
9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN... 96
9.7 ELEMENTOS DE UN EXPERIMENTO ... 97
9.7.1 CONCEPTOS GENERALES...97
9.7.2 HIPÓTESIS DE TRABAJO...98
9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI COMPARAMOS MEDIAS?... 98
Análisis Multivariante
9.9.1 MODELO... 101
9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ... 101
9.11 ANOVA CON VARIOS FACTORES ... 103
9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN INVESTIGACIÓN COMERCIAL ... 104
9.12.1 EXPERIMENTO ALEATORIO O AL AZAR ... 104
9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO... 109
9.12.3 EXPERIMENTO DE CUADRADO LATINO... 113
9.12.4 EXPERIMENTO CON INTERCAMBIO ... 117
9.12.5 EXPERIMENTO FACTORIAL ... 117 9.13 BIBLIOGRAFÍA ... 125
10.
ANALISIS DISCRIMINANTE...127
10.1 CONCEPTO... 127 10.1.1 EJEMPLO ... 128 10.2 OBJETIVOS DEL AD ... 128 10.3 CLASIFICACIÓN DEL AD ... 12810.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ... 129
10.5 MODELO DEL AD... 129
10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD... 130
10.6.1 SUPUESTOS:... 130
Análisis Multivariante
10.7 PASOS DEL ANÁLISIS DISCRIMINANTE... 132
10.7.1 FORMULACIÓN DEL PROBLEMA... 132
10.7.2 ESTIMACIÓN ... 133
10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN... 133
10.7.4 INTERPRETACIÓN... 133
10.7.5 VALIDACIÓN... 136
10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:... 138
10.9 ANALISIS DEL EFECTO CONJUNTO: ... 142
10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: ... 145
10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE WILKS: 149 10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE... 153
10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN... 153
10.12.2 INTERPRETACIÓN... 153
10.12.3 VALIDACIÓN ... 153
11.
CASO PRÁCTICO DE ADM ...154
11.1.1 INTRODUCCIÓN... 154
11.1.2 ANÁLISIS DISCRIMINANTE ... 157
11.2 BIBLIOGRAFÍA ... 165
Análisis Multivariante
12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO
SEA EFICAZ. ... 167
12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. ... 168
12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE MERCADOS. ... 170
12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN SEGMENTOS. ... 172
13.
TÉCNICAS DE SEGMENTACIÓN. ...173
13.1 MÉTODOS CLÁSICOS. ... 173
13.1.1 MÉTODO BELSON... 173
13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA... 176
13.1.3 MÉTODO DE CHI CUADRADO... 170
13.1.4 MODELOS DE CANGUILHEM. ... 170
13.2 AUTOMATIC INTERACTION DETECTION (AID) ... 172
13.2.1 VENTAJAS E INCONVENIENTES ... 173
14.
CHI-SQUARED AUTOMATIC INTERACTION
DETECTION (CHAID)...173
14.1 CONCEPTO... 173
14.1.1 PROCESO ... 174
14.1.2 UTILIDAD... 175
Análisis Multivariante
15.
EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN
MARKETING EN EL COMERCIO ...176
15.1 RESUMEN ... 176
15.2 INTRODUCCIÓN... 176
15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS... 178
15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ... 179
15.5 TÉCNICAS A UTILIZAR... 181
15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES... 181
15.5.2 TÉCNICAS DE SEGMENTACIÓN ... 185
15.6 RESULTADOS... 188
15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN... 188
15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING... 190
15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN... 192
15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO... 195
15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN GENÉRICOS ... 195
15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN ENFOCADOS A CLIENTE ... 198
Análisis Multivariante
15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS... 201
16.
CONCLUSIONES ...203
17.
BIBLIOGRAFÍA ...205
18.
CONCEPTO DE ACM ...209
19.
MODELO DEL ACM ...209
19.1 CONSIDERACIONES ACERCA DEL MODELO ... 211
Análisis Multivariante
1. CONCEPTOS GENERALES
1.1
INTRODUCCIÓN.
Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas.
1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES
El objetivo fundamental de la Investigación Comercial es el de obtener información objetiva, que permita el disminuir la incertidumbre del decisor en su toma de decisiones.
A través de la Investigación Comercial la empresa puede disponer de una gran cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla su negocio. El mercado donde realiza la actividad económica la empresa, es un fenómeno complejo donde interactúan un gran número de factores que tienen influencia en los resultados empresariales (Inflación, paro, paridad de la moneda, formación de los trabajadores, ecología, legislación, demografía, etc.)
Por tanto podemos afirmar que la mayoría de los problemas de la empresa son multidimensionales, es decir cualquier actividad empresarial la podemos describir de acuerdo con diversas dimensiones.
Esto nos conduce a que deberemos estudiar los factores que influyen o que bien consideramos que lo puedan hacer, de una manera simultánea y para ello se utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o multivaribles.
En la Investigación Comercial a través de encuestas, se realizan una serie de preguntas, mediante la administración de un cuestionario, que permite mediante su
Análisis Multivariante
combinación obtener la información acerca del fenómeno objeto de la investigación.
Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc.
A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida.
Esta situación la podemos resumir en el siguiente esquema
Esquema 1
Variables observadas Análisis multivariante Nueva variable abstracta
1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?
Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones:
1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana
2. Permiten analizar toda la información acerca de un determinado fenómeno, considerando simultáneamente todos los factores que intervienen.
Análisis Multivariante
1.2
DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE
Podemos definir las técnicas multivariantes como, un conjunto de métodos estadísticos que permiten el análisis de forma simultánea de mas de dos variables observadas en una Investigación Comercial
Desde una concepción amplia podemos definir el Análisis Multivariante como un conjunto de métodos que analizan las relaciones entre un número razonablemente amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o más muestras simultáneamente.
1.3
ÁREAS DE APLICACIÓN
DEL ANÁLISIS
MULTIVARIANTE
El análisis Multivariante es de aplicación en la Investigación Comercial, en las siguientes circunstancias:
• Reducción de datos. Se trata de simplificar la estructura del fenómeno investigado buscando la mayor simplicidad, lo que permitirá una interpretación muy fácil.
• Clasificación y agrupación Por ejemplo las técnicas de segmentación y tipología
• Análisis de las relaciones de dependencia, con el fin de predecir o bien explicar
• En la construcción de modelos. Econometría
1.4
DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES
En las técnicas del análisis multivariante se entiende por variable alguna magnitud que representa la característica de los elementos objeto de investigación que tratamos de medir.
Análisis Multivariante
En una primera clasificación las variables las podemos clasificar en dos grupos, variables independientes (VI) y variables dependientes (VD).
Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o más variables independientes. Las variables dependientes también se denominan variables criterio o respuesta, mientras que las variables independientes son las que servirán para explicar el fenómeno estudiado y se en ocasiones se denominan como variables explicativas, factores o variables predictoras.
En los estudios no experimentales, la situación de las variables no siempre es clara, definiéndose su papel en el contexto de la investigación. Una misma variable puede adoptar diferentes roles en función de situaciones.
Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada a diferentes niveles de variación de la variable independiente (X) se dice que están relacionadas.
Si todas las variables desempeñan el mismo papel se habla de relaciones de interdependencia. En este caso no hay una variables con las que se intente explicar el comportamiento de otras.
En ocasiones, al analizar el modelo la única forma de diferenciar las variables es simplemente por donde están situadas en la ecuación.
1.4.1 TIPOS DE VARIABLES
Una variable es una característica o propiedad de un elemento (individuo, objeto, transacción, suceso, etc.), que toma distintos valores para cada elemento.
En general se clasifican en dos grandes grupos:
• Variables no métricas o cualitativas
• Variables métricas o cuantitativas
Análisis Multivariante
Variables cuantitativas o métricas: Son aquellas en las que los valores tomados por diferentes individuos tienen un significado propio. De hecho, son una medición o cuantificación de una determinada característica, la respuesta a la pregunta: ¿Cuánto/s ?
Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas, beneficios, de una empresa, etc.
Variables cualitativas o no métricas1: Son aquellas en las que las distintas características de los elementos estudiados son cualidades o categorías alfabéticas. Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre el valor asignado y el significado de la categoría representada.
Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación (Suspenso, Aprobado, Notable, Sobresaliente), etc.
1.4.1.1 CLASIFICACIÓN POR LOS VALORES QUE PUEDEN ADOPTAR
De acuerdo con el valor que pueden adoptar las variables estas las podemos clasificar en los siguientes tipos:
• Variable continua. Se trata de una variable cuantitativa que puede adoptar cualquier valor numérico, Para todo par de valores siempre podemos encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ...
• Variable discreta. Puede adoptar un número finito de valores distintos, entre dos valores consecutivos no se puede encontrar ninguno intermedio. Por ejemplo el número de personas por hogar.
• Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen como 0 y 1 se llama binaria.
Análisis Multivariante
• Variables ficticias o Dummy. Se utiliza con variables cualitativas, para poder obtener información a través de operaciones, se convierten en binarias, indicando el valor 1 la presencia de una categoría de la variable y 0 su ausencia.
Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas variables dummy como categorías tiene la variable menos una.
Ejemplos de variables Dummy
La variable Sexo con las categorías hombre y mujer necesitaría una sola variable dummy D1: Hombre 0 Mujer 1
Consideremos la variable “Color del producto A” que tiene las siguientes categorías
1 Rojo 2 Verde 3 Azul
Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a: D1 = Rojo 1 Verde y Azul 0
D2 = Verde 1 Rojo y Azul 0
La categoría azul queda definida ya que tiene 0 en las dos ficticias
1.5
ESCALAS DE MEDIDA
Prácticamente todas las investigaciones de mercado recogen los datos en forma de números, interesando al investigador lo que estos números representan, por medio de las correspondientes operaciones de medida.
Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ... según unas normas predeterminadas.
Puesto que utilizamos diferentes reglas para la asignación de los números, un mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la existencia de diferentes escalas de medida.
Análisis Multivariante
Por escala de medida entenderemos la correspondencia entre los números asignados a las propiedades de los elementos y la significación de los cálculos matemáticos realizadas con los números. Básicamente en el análisis estadístico se utilizan las cuatro escalas siguientes:
Nominal, Ordinal, Intervalo y Ratio o de proporción
Las características de estas escalas las resumimos a continuación:
• Nominal: los posibles valores de la variable representan diferentes categorías, no existiendo ninguna relación entre el código asignado a una categoría y su significado Ejemplos: profesión, raza, estado civil, ...
o Caso particular: variables dicotómicas, sólo admiten dos posibles respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se denominan binarias si se codifican 0 / 1.
• Ordinal: los códigos o valores de cada categoría mantienen la misma relación de orden que el significado de las categorías. Ejemplos: clase social, escala de preferencia, ...
• Intervalo: los códigos asignados a diferentes respuestas permiten conocer la magnitud de la característica medida, ya que se mantiene una relación de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable redondeada, ...
• Ratio o razón: los códigos representan el propio valor de la característica estudiada, observándose una relación de orden y de distancia y la existencia de un origen Ejemplos: cifra de ventas, ratio económico-financiero, ...
1.6
VARIABLES Y ESCALAS DE MEDIDA
Análisis Multivariante
1. Variables no métricas o cualitativas, vienen medidas en escala nominal u ordinal
2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de razón.
3. Variables binarias se utiliza la escala de razón
1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS En ocasiones en el estudio se deben realizar transformaciones de escala y origen Las variables las podemos dividir en:
Valores o puntuaciones directas, también llamadas brutas, se obtienen directamente del instrumento de medida y en sus mismas dimensiones. Se suelen representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las
correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala
Valores o puntuaciones centradas en la media o diferenciales, son el resultado de un cambio en el origen al obtenerse de la restando de la media el valor, se suelen representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente operación x = X - mX
Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las puntuaciones originales. Se produce un cambio de origen no de escala.
Valores típicos o estandarizados. Se obtienen restando de cada valor la media y dividiendo por la desviación típica. Se suelen representar por la letra Z y el subíndice de a correspondiente categoría de la variable.
Se obtienen de X X s m X Z = −
Los valores tipificados están libres de escala y siempre tienen media igual a 0 y desviación típica igual a 1.
Análisis Multivariante
1.7
CLASIFICACIÓN DE LAS TÉCNICAS
MULTIVARIANTES
Los diferentes métodos de análisis multivariante no solo difieren entre sí por el objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la tabulación, forma de codificar y en el trabajo con las variables ya que algunos métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen con variables ordinales y métricas.
Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en dos grupos básicos:
Métodos descriptivos o de interdependencia y métodos explicativos o de dependencia.
Los métodos explicativos o de dependencia se emplean para explicar o proyectar la(s) variable(s) dependiente(s) con base en dos o más variables independientes. Por ejemplo explicar las ventas en función de numerosas variables independientes (número de vendedores, inversión en publicidad, promoción, renta de los consumidores, etc.).
Los métodos descriptivos o de interdependencia tratan de dar significado a un conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando realizamos un estudio de segmentación.
La clasificación de las técnicas multivariantes las podemos resumir en el siguiente esquema.
Análisis Multivariante
TÉCNICAS MULTIVARIANTES
EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES
SI
MÉTODOS EXPLICATIVOS
NO
MÉTODOS DESCRIPTIVOS
Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes criterios los mas habituales son los que reseñamos en los siguientes esquemas2
2
Análisis Multivariante
1.8
BIBLIOGRAFÍA RECOMENDADA
Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición 1999
Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque (Coordinador), Editorial Pirámide 2000
Análisis Multivariante
Métodos Explicativos
o de
Análisis Multivariante
2. METODOS EXPLICATIVOS O DE DEPENDENCIA
2.1
INTRODUCCIÓN
Los métodos explicativos o de dependencia, del análisis multivariante, son técnicas que diferencian entre variables independientes, explicativas o predictoras y variables dependientes o a explicar.
2.2
OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS:
El objetivo principal de los métodos explicativos es:
Encontrar la relación existente entre la variable/s dependiente/s y la/s independiente/s:
Este objetivo nos conduce a los siguientes objetivos secundarios:
• Explicar el comportamiento de la/s variable/s dependiente/s (Y) Por qué la Y no es igual en todas las observaciones
• Estimar el efecto de una o varias variables explicativas (X) cuantitativas o binarias
¿Cuáles son las variables X que explican el comportamiento de Y? ¿En cuánto varía la Y frente a un cambio de cada una de las X’s?
• Predecir el valor de Y
Cuál es el valor de Y para unas X’s determinadas Hasta que punto hemos conseguido explicar Y
2.3
TÉCNICAS MAS HABITUALES.
En esta modalidad de análisis multivariable de la información las técnicas más habituales son:
La regresión, el análisis de la varianza, segmentación jerarquica análisis discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones estructurales.
Análisis Multivariante
Análisis Multivariante
3. REGRESIÓN LINEAL
Al clasificar los métodos explicativos por el número de variables dependientes y las escalas de medida de las variables dependientes e independientes nos encontrábamos que cuando tenemos una sola variable dependiente y todas las mediciones de las diferentes variables están en escala métrica podemos aplicar la técnica denominada regresión
De forma esquemática podemos representar esta situación como
METODOS EXPLICATIVOS
NÚMERO DE VARIABLES DEPENDIENTES
UNA
ESCALA DE MEDIDA DE LA VARIABLE (S)
INDEPENDIENTE (S)
MÉTRICA
ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE
MÉTRICA
REGRESIÓN
3.1
CONCEPTO
El análisis de regresión trata de analizar la dependencia de una variable cuantitativa a explicar respecto de una o varias variables explicativas, también cuantitativas.
Matemáticamente la regresión la podemos representar como:
Y = f (X
i)
Donde Y es la variable dependiente y Xi representa las diferentes variables
Análisis Multivariante
Cuando hay dos o más variables independientes se trata de un modelo de regresión múltiple.
Si recordamos el modelo de regresión simple o modelo de regresión lineal de primer orden responde a la siguiente fórmula matemática.
y =
β
0+
β
1x +
ε
donde:
y = variable dependiente o variable a explicar x = variable independiente o variable explicativa
ε (epsilon) = error o perturbación aleatoria
β0 =origen de la recta: punto donde la recta corta el eje de
ordenadas o eje de la y.
β1 =pendiente de la recta o coeficiente de regresión: nos indica en
cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.
Su representación gráfica corresponde a la indicada en la Fig. 1
El modelo de regresión múltiple viene expresado por:
y =
β
0+
β
1x
1+
β
2x
2+ . . . +
β
kx
k+
ε
donde:y = variable dependiente o variable a explicar
Análisis Multivariante
ε (epsilon) = error o perturbación aleatoria
β0 = origen cuando todas las variables independientes son 0
βi = pendiente o coeficiente de regresión de la variable i.
Algunos autores utilizan como coeficiente de regresión en el origen
α
en vez deβ
0 La correspondiente ecuación pasa a ser:Y
= +
α β
1X
1+
β
2X
2+
β
3X
3+
β
4X
4+ +
...
β
nX
n+
ε
Los coeficientes de regresión son en todos los casos los parámetros a estimar.
El modelo de regresión requiere que todas las variables sean métricas, las variables independientes que sean cualitativas o no métricas se pueden convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar como cuantitativas
3.1.1 MODELOS ESTOCÁSTICOS
En los modelos denominados deterministas, para los diferentes valores de la variables independientes corresponden valores determinados de la variable dependiente.
Sin embargo este modelo no suele describir bien las relaciones entre las variables porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la variable independiente (Y) y que, como tales, no se derivan de la variación de las variables dependientes.
Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que contemple esta situación. Se trata de los denominados modelos estocásticos de regresión, denominados así porque forma parte de ellos una variable aleatoria
ε
denominada error y perturbación aleatoria.Análisis Multivariante
La ecuación de este tipo de modelo será:
Y
= +
α β
1X
1+
β
2X
2+
β
3X
3+
β
4X
4+ +
...
β
nX
n+
ε
3.2
ANÁLISIS DE REGRESIÓN MÚLTIPLE
El análisis de regresión múltiple es una extensión del análisis de regresión bivariado que nos permite la investigación simultánea del efecto de dos o más variables independientes sobre una variable dependiente medida en escala métrica. Por consiguiente se trata de buscar la ecuación que mejor exprese matemáticamente la relación de los valores de una variable dependiente (Y) con los valores de dos o más variables independientes (X1 X2 X3 ...Xn) consideradas
conjuntamente.
De esta forma el problema consiste en la identificación de una relación lineal mediante el análisis de regresión múltiple.
La ecuación obtenida es del tipo:
y =
β
0+
β
1x
1+
β
2x
2+ . . . +
β
kx
k+
ε
Los coeficientes
β
i muestran el efecto sobre la variable de un incremento de una unidad en la variable independiente correspondiente. Estos coeficientes se les denomina como coeficientes de regresión parcial. El valor original deβ
i es el coeficiente sencillo de la regresión bivariada, se define como el coeficiente de correlación parcial para el que se mantienen constantes los efectos de las otras variables independientes.La función del coeficiente
β
0 consiste en asegurar que la media de los valores de Y coincide con la media de los valores de X3.2.1 ¿QUÉ NOS INTERESA CONOCER?:
• ¿Cómo se calculan los coeficientes de regresión
,
β
0y
β
i?
• ¿Cómo se interpretan?
• ¿Cómo se determina si son o no estadísticamente significativos?
Análisis Multivariante
3.3
HIPÓTESIS DEL MODELO DE REGRESIÓN
Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las variables independientes
Partiendo del modelo:
y = β0 + β1xI + ... + ε
Las correspondientes hipótesis son:
• La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x.
• La distribución de probabilidad de ε es normal.
• Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores).
• La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad)
• No debe existir excesiva colinealidad o multicolinealidad (correlación entre las variables independientes).
La hipótesis primera se considera ciertas y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los errores la estimación por mínimos cuadrados exige que su media sea 0).
3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las
Análisis Multivariante
El método de estimación por mínimos cuadrados minimiza la suma de cuadrados de las diferencias entre los valores reales y los estimados de la variable dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la variable dependiente (Y)
De conformidad con este criterio la mejor recta es aquella que haga mínima la suma de los cuadrados de los residuos
∑
2i
e Min
3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la variable dependiente Y explicado por la variación en las variables independientes Por tanto representa el grado de asociación entre una variable dependiente y dos o más variables independientes tomadas en conjunto.
Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o también llamado coeficiente de determinación múltiple (R2), este índice nos indica el tanto por ciento de la variación total de la variable dependiente Y, explicado por la ecuación de regresión y es igual a la razón entre la variación explicada y la variación total de la variable. Por tanto expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión
Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de asociación lineal entre la variable dependiente y las independientes tomadas en conjunto, este valor no es incompatible con la posible existencia de una posible correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las variables.
Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través de un ejemplo.
Resultados estadísticos de un análisis de regresión múltiple Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3
Coeficiente de determinación múltiple (R2) 0´845 Test F 14´5
Análisis Multivariante
El valor R2 = 0´845 nos indica que la variación de las variables independientes representa 84´5% de la varianza en la variable dependiente.
Para probar la significación estadística se realiza el análisis ANOVA (la prueba o test F). Esta prueba permite probar las magnitudes relativas de la suma de cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con
sus correspondientes grados de libertad. La fórmula correspondiente es
F
SS
k
SS
n
k
r e=
(
) (
(
)
− −
1
)
Dondek es el número de variables independientes y n es el tamaño de la muestra o el número de observaciones o encuestas.
Si consideramos que trabajamos con un nivel de significación del 5% el valor correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y denominador obtenemos que el valor es Ft = 4´07.
Por consiguiente como el valor calculado es superior al correspondiente de tablas, obtenemos como conclusión que la relación existente entre las variables independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.
Análisis Multivariante
TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F NIVEL DE CONFIANZA 95% m N 1 2 3 4 5 1 161´4 199´5 215´7 224´6 230´2 2 18´51 19 19´16 19´25 19´30 3 10´13 9´55 9´28 9´12 9´01 4 7´71 6´94 6´59 6´39 6´26 5 6´61 5´79 5´41 5´19 5´05 6 5´99 5´14 4´76 4,53 4´39 7 5´59 4´74 4´35 4´12 3´97 8 5´32 4´46 4´07 3´84 3´69 9 5´12 4´26 3´86 3´63 3´48 10 4´96 4´10 3´71 3´48 3´33 11 4´84 3´98 3´59 3´36 3´20 12 4´75 3´89 3´49 3´26 3´11 13 4´67 3´81 3´41 3´18 3´03 14 4´6 3´74 3´34 3´11 2´96 15 4´54 3´68 3´29 3´06 2´90
Siendo m los grados de libertad del numerador y n los grados de libertad del denominador.
Análisis Multivariante
3.4
COLINEALIDAD
La colinealidad se produce cuando las variables independientes introducidas en el modelo de regresión están correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén correlacionadas las variables independientes.
Cuando una variable independiente se puede expresar como una combinación lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable, solucionando la colinealidad. El problema se produce cuando la correlación entre las X’s es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresión múltiple planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea excesiva ni perjudicial.
3.4.1 MATRIZ DE CORRELACIONES
Se trata de una matriz que tiene tantas filas y columnas como número de variables correlacionadas tengamos. En cada celda se indica el coeficiente de correlación entre las variables que se cruzan. La diagonal expresa la correlación de cada variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que representan las correlaciones entre las casillas en orden invertido ( R12 = R21).
3.4.2 CORRELACIÓN PARCIAL
La correlación múltiple se refiere a modelos en los que se relacionan más de dos variables independientes,. en este tipo de modelo es normal que si tratamos de hallar la correlación simple entre las variables dos a dos, esta no exprese el grado real de asociación entre dichas variables porque el resultado estará con toda seguridad afectado por la influencia en dicha asociación de las demás variables que intervienen en el modelo.
Se trata de poder establecer la relación o asociación entre dos de las variables del modelo, eliminando la influencia del resto de variables. Esto es lo que se hace mediante los coeficientes de correlación parcial. Mediante estos coeficientes se
Análisis Multivariante
Existen diversos tipos de correlación parcial, según el número de variables que se controlan.
Cuando no se controla ninguna variable, la correlación entre dos variables, es la correlación simple o total se denomina de orden cero, si hay una variable de control se denomina de orden uno, si se controlan dos variables se trata de una correlación de orden dos y así sucesivamente.
3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE
La correlación parcial múltiple es una modalidad de correlación entre cuatro o más variables, que combina los tipos de correlación parcial y la múltiple
Al medir la correlación de más de dos variables estamos realizando una correlación múltiple y si lo hacemos controlando una o más variables, es a su vez una correlación parcial.
3.4.4 MULTICOLINEALIDAD
Se denomina multicolinealidad la existencia de una elevada correlación entre las variables independientes que forman parte del modelo.
Se produce cuando las variables explicativas (X) están altamente correlacionadas entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión estimados y sus errores estandar.
Cuando esto sucede no es posible separar la influencia propia sobre la variable dependiente de cada una de las variables independientes, produciéndose el efecto de un incremento en los errores estándar de los coeficientes de regresión.
La gravedad de la multicolinealidad dependerá del objetivo que se busque con el modelo. Si lo que pretendemos es predecir los valores de la variable dependiente (Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el efecto de cada variable independiente sobre la dependiente.
3.4.5 EFECTOS DE LA COLINEALIDAD
La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor sea la correlación entre las X’s:
Análisis Multivariante
• Las desviaciones estándar de los coeficientes de regresión están sobreestimadas, con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
• Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.
• Los coeficientes de regresión estimados no son consistentes, es decir, pueden cambiar al modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están relacionadas).
3.4.6 FORMAS DE MEDIR LA COLINEALIDAD La colinealidad se puede medir de distintas formas:
• Matriz de correlaciones de Pearson entre cada par de variables independientes. Da una idea pero no es concluyente.
• Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la
variable Xj frente a todas las demás X’s.
Análisis Multivariante
3.4.6.1 NIVELES DE COLINEALIDAD Lo podemos resumir en el siguiente cuadro:
Tolerancia
VIF
Colinealidad:
Toler = 1
VIF = 1
No existe colinealidad
0,3 < Toler < 1
3,33 > VIF > 1 Poca: el modelo no suele presentar
efectos (defectos) importantes
0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las
consecuencias de la colinealidad:
inconsistencia de los estimadores y
pérdida de su significación
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves
problemas en la interpretación de las
X’s ya que sus coeficientes de
regresión pueden llegar a cambiar
hasta de signo
Toler < 0,01
VIF > 100
Colinealidad perfecta: los propios
paquetes informáticos dejan fuera la
variable (ya que es una combinación
lineal de las otras independientes)
3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD
Para dar solución a este problema se recurre al análisis factorial. Se aplica el análisis factorial a las variables independientes correlacionadas entre sí y se sustituyen sus valores por las puntuaciones de los factores obtenidos, que están absolutamente incorrelaccionados entre sí.
3.4.8 COEFICIENTES DE REGRESIÓN Lo podemos resumir en:
Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple:
Análisis Multivariante
H0 : βi = 0
(la X
ino influye sobre la Y)
Ha : βi≠ 0 Estadístico de prueba: t =
S
ˆ
ˆ ββ
i iRegión de rechazo: se rechaza H0 si el nivel de
significación observado es pequeño, menor que 0,05
Observaciones: El modelo no será eficiente si incluye variables que no sean
estadísticamente explicativas (las que tienen un coeficiente de regresión significativamente distinto de 0)
Como cada Xi puede estar medida en diferentes unidades, la comparación de los coeficientes de correlación de las diferentes variables se ha de realizar mediante los coeficientes estandarizados
3.4.8.1 SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN El error estándar es la desviación típica estimada del coeficiente de regresión. El intervalo de confianza es el intervalo para el que se establece una probabilidad de que el verdadero valor del coeficiente de regresión esté contenido entre los límites del mismo.
La significación del mismo se realiza mediante el estadístico “t” de Student
estándar Error regresión de e Coeficient t=
Normalmente se contrasta para α = 5%
3.4.8.2 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).
x y y x
S
S
Beta
B
o
S
S
B
Beta
1=
1⋅
1=
1⋅
Análisis Multivariante
3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN
Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable dependiente (Y) y las variables independientes (X)
La varianza total de la variable dependiente se divide en
• Atribuida al modelo de regresión
• Residuo no explicado por el modelo
3.5
MODELOS CON VARIABLES FICTICIAS
Una de la condiciones del análisis de regresión es que las variables deben estar medidas en una escala métrica. Este análisis también se puede aplicar a variables cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia.
Análisis Multivariante
3.6
TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT
Valores de la función de distribución g.l. = grados de libertad tc tal que p(t<=tc)=p Probabilidad p g.l. 0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550 1 63,657 31,821 12,706 6,314 3,078 1,376 1,000 0,727 0,325 0,158 2 9,925 6,965 4,303 2,920 1,876 1,061 0,816 0,617 0,289 0,142 3 5,841 4,451 3,183 2,353 1,638 0,978 0,765 0,584 0,277 0,137 4 4,604 3,747 2,786 2,132 1,533 0,941 0,741 0,569 0,271 0,134 5 4,032 3,365 2,571 2,015 1,478 0,920 0,727 0,559 0,267 0,132 6 3,707 3,143 2,457 1,943 1,440 0,906 0,718 0,553 0,265 0,131 7 3,499 2,998 2,365 1,895 1,415 0,896 0,711 0,549 0,263 0,130 8 3,355 2,895 2,306 1,860 1,397 0,889 0,706 0,546 0,262 0,130 9 3,250 2,821 2,262 1,833 1,383 0,883 0,703 0,543 0,261 0,129 10 3,169 2,764 2,228 1,812 1,372 0,879 0,700 0,542 0,260 0,129 11 3,106 2,728 2,201 1,796 1,363 0,876 0,697 0,540 0,260 0,129 12 3,055 2,681 2,179 1,782 1,356 0,873 0,695 0,539 0,259 0,128 13 3,012 2,650 2,160 1,771 1,350 0,870 0,694 0,538 0,259 0,128 14 2,987 2,624 2,145 1,761 1,345 0,868 0,692 0,537 0,258 0,128 15 2,947 2,602 2,131 1,753 1,341 0,866 0,691 0,536 0,258 0,128 16 2,921 2,583 2,120 1,746 1,337 0,865 0,690 0,535 0,258 0,128 17 2,898 2,567 2,110 1,740 1,333 0,863 0,689 0,534 0,257 0,128 18 2,888 2,552 2,101 1,734 1,330 0,862 0,688 0,534 0,257 0,127 19 2,861 2,539 2,093 1,729 1,328 0,861 0,688 0,533 0,257 0,127 20 2,845 2,528 2,086 1,725 1,325 0,860 0,687 0,533 0,257 0,127 21 2,831 2,518 2,080 1,721 1,323 0,859 0,686 0,532 0,257 0,127 22 2,819 2,508 2,074 1,717 1,321 0,858 0,686 0,532 0,256 0,127 23 2,807 2,500 2,069 1,714 1,319 0,858 0,685 0,532 0,256 0,127 24 2,797 2,492 2,064 1,711 1,318 0,857 0,685 0,531 0,256 0,127 25 2,787 2,485 2,060 1,708 1,316 0,856 0,684 0,531 0,256 0,127 26 2,779 2,479 2,056 1,706 1,315 0,856 0,684 0,531 0,256 0,127 27 2,771 2,473 2,052 1,703 1,314 0,855 0,684 0,531 0,256 0,127 28 2,763 2,467 2,048 1,701 1,313 0,855 0,683 0,530 0,256 0,127 29 2,756 2,462 2,045 1,699 1,311 0,854 0,683 0,530 0,256 0,127 30 2,750 2,457 2,042 1,697 1,310 0,854 0,683 0,530 0,256 0,127 40 2,704 2,423 2,021 1,684 1,303 0,851 0,681 0,529 0,255 0,126 60 2,660 2,390 2,000 1,671 1,296 0,848 0,679 0,527 0,254 0,126
Análisis Multivariante
3.7
EJEMPLO 1
Se quiere estudiar las ventas en función de las inversiones en publicidad, promoción, el número de vendedores y el de puntos de venta (Tienda). Para ello se tienen en cuenta los siguientes resultados3
VENTAS PUBLICIDAD PROMOCIÓN VENDEDORES TIENDAS
1400 52 130 25 300 1500 60 145 30 400 2000 80 150 30 500 1990 95 200 27 500 2100 87 180 35 400 2300 100 150 32 357 2200 94 150 36 287 2700 125 125 34 197 2750 136 98 26 146 2600 124 100 30 150 2763 132 87 28 160 3469 190 100 31 198 3165 197 102 42 300 3400 175 198 29 234 3759 186 212 18 126 3896 213 129 21 157 3895 231 142 20 134 4123 248 167 19 128 4230 257 198 21 115 4567 340 158 18 116 3986 425 98 21 138 3
Análisis Multivariante
A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E
IDENTIFICACIÓN DE LAS VARIABLES
VARIABLE DEPENDIENTE: VENTAS
VARIABLES INDEPENDIENTE 1: inversión en publicidad VARIABLES INDEPENDIENTE 2: inversión en promoción VARIABLES INDEPENDIENTE 3: número de vendedores VARIABLES INDEPENDIENTE 4: número de puntos de venta
Matriz de coeficientes de correlación simple:
ventas publicid promo vendedor tiendas --- --- --- --- --- ventas 1.0000 0.8868 0.0884 -0.5988 -0.7814 publicid 0.8868 1.0000 -0.0652 -0.5631 -0.6666 promo 0.0884 -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5988 -0.5631 -0.2779 1.0000 0.5508 tiendas -0.7814 -0.6666 0.2304 0.5508 1.0000 Coeficiente de determinación: 0.9033
Coeficiente de correlación múltiple: 0.9504 Coeficiente de regresión alfa: 1416.4829
Análisis Multivariante
COEFIC. SUMA DE PROPORC. DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA --- --- --- --- --- --- --- --- --- ventas 2990.1429 946.7194 publicid 168.9048 94.4955 6.5105 1.1022 5.9068 0.8280 14098343.7977 0.7865 p=0.0000 promo 143.7619 38.4862 6.4704 2.2696 2.8509 0.5804 384920.6320 0.0215 p=0.0116 vendedor 27.2857 6.6268 13.4207 16.0705 0.8351 0.2044 86916.2111 0.0048 p=0.4160 tiendas 239.7619 127.1314 -3.4300 0.8869 -3.8672 -0.6951 1621077.2282 0.0904 p=0.0014 --- --- 16191257.8689 0.9033
Análisis Multivariante
ANÁLISIS DE LA VARIANZA
FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS --- --- --- --- Debida a la regresión: 4 16191257.8689 4047814.4672 Residuo: 16 1734292.7025 108393.2939 --- --- Varianza total: 20 17925550.5714
Análisis Multivariante
ANEXO: A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S IDENTIFICACIÓN DE LAS VARIABLES
---
VARIABLE 1 : inversión en publicidad VARIABLE 2 : inversión en promoción VARIABLE 3 : número de vendedores
VARIABLE 4 : número de puntos de venta
Matriz de coeficientes de correlación simple ---
publicid promo vendedor tiendas --- --- --- --- publicid 1.0000 -0.0652 -0.5631 -0.6666 promo -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5631 -0.2779 1.0000 0.5508 tiendas -0.6666 0.2304 0.5508 1.0000 Test de Bartlett ---
Determinante de la matriz de correlación = 0.247672 Ji cuadrado con 6 grados de libertad = 24.8891 (p = 0.0004)
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 --- --- --- --- VALOR PROPIO: 2.1890 1.1866 0.3582 0.2662 % DE VARIANZA: 54.72% 29.67% 8.95% 6.65% % VAR.ACUMUL.: 54.72% 84.39% 93.35% 100.00% CARGAS DE
LOS FACTORES: COMUNALIDAD --- publicid -0.8756 -0.0778 0.4658 0.1018 1.0000 promo 0.0272 0.9698 0.1193 -0.2111 1.0000 vendedor 0.8125 -0.4079 0.3109 -0.2771 1.0000 tiendas 0.8726 0.2716 0.1742 0.3668 1.0000 COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES:
publicid -0.4000 -0.0656 1.3004 0.3825 promo 0.0124 0.8172 0.3332 -0.7929 vendedor 0.3712 -0.3437 0.8678 -1.0409 tiendas 0.3986 0.2288 0.4863 1.3778
Análisis Multivariante
Cargas de los factores retenidos: ---
FACTOR 1 FACTOR 2 COMUNALIDAD --- --- --- publicid -0.8756 -0.0778 0.7727 promo 0.0272 0.9698 0.9412 vendedor 0.8125 -0.4079 0.8266 tiendas 0.8726 0.2716 0.8351 ROTACIÓN VARIMAX:
Cargas de los factores retenidos (después de la rotación): --- FACTOR 1 FACTOR 2 COMUNALIDAD
--- --- --- publicid -0.8777 -0.0470 0.7727 promo 0.0612 0.9682 0.9412 vendedor 0.7977 -0.4362 0.8266 tiendas 0.8816 0.2407 0.8351 VARIANZA: 2.1877 1.1879 % DE VARIANZA: 54.69% 29.70% % VAR.ACUMUL.: 54.69% 84.39%
Análisis Multivariante
3.8
EJEMPLO2
4A través de un análisis factorial, una empresa de suavizantes ha
determinado que los tres conceptos básicos que caracterizan a su producto
son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cuál o
cuáles de ellos influye/n en la intención de compra.
3.72 1.12 830 .00 1.00 830 .00 1.00 830 .00 1.00 830 Intención de compra Suavidad Aroma Cremosidad Media Desviación típ. N Estadísticos descriptivos 1.000 .565 .458 .238 .565 1.000 .000 .000 .458 .000 1.000 .000 .238 .000 .000 1.000 . .000 .000 .000 .000 . .500 .500 .000 .500 . .500 .000 .500 .500 . 830 830 830 830 830 830 830 830 830 830 830 830 830 830 830 830 Intención de compra Suavidad Aroma Cremosidad Intención de compra Suavidad Aroma Cremosidad Intención de compra Suavidad Aroma Cremosidad Correlación de Pearson Sig. (unilateral) N Intención
de compra Suavidad Aroma Cremosidad
Correlaciones
Como se puede apreciar en estas tablas, éste es un ejemplo peculiar pues entre las variables independientes no existe ninguna correlación. Esto es lógico pues el análisis factorial de componentes principales con rotaciones ortogonales genera variables no correlacionadas entre ellas. Por otro lado, las variables obtenidas están estandarizadas (media 0, desviación típica 1) y así deberán ser interpretadas.
4
Análisis Multivariante
.765a .586 .584 .72 Modelo 1 R R cuadrado R cuadrado corregida Error típ. de la estimaciónResumen del modelo
Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad a. 606.060 3 202.020 389.513 .000a 428.404 826 .519 1034.464 829 Regresión Residual Total Modelo 1 Suma de cuadrados gl Media cuadrática F Sig. ANOVAb
Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad a.
Variable dependiente: Intención de compra b.
A nivel global el modelo obtenido es satisfactorio. Se ha conseguido
explicar el 58,6% de la variabilidad total de Y, la intención de compra.
Además, como se puede ver en la tabla ANOVA, esta varianza explicada es
suficientemente grande respecto a la residual con lo que este modelo es
capaz de explicar los cambios producidos en la Intención de compra.
Coeficientesa 3.717 .025 148.689 .000 3.668 3.766 .631 .025 .565 25.228 .000 .582 .680 .512 .025 .458 20.465 .000 .463 .561 .266 .025 .238 10.644 .000 .217 .315 (Constante) Suavidad Aroma Cremosidad 1 B Error típ. Coeficientes no estandarizados Beta Coefic. estandar. t Sig. Límite inferior Límite superior Intervalo de confianza para B al 95%
Variable dependiente: Intención de compra a.
A nivel individual, todos los coeficientes de regresión son significativamente distintos de 0. Por ello, todas las variables incluidas en el modelo aportan explicación sobre la Intención de compra. En concreto, por una unidad estándar de Suavidad, la Intención de compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estándar de Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intención de compra y una de Cremosidad de 0,266 puntos.
Obsérvese como en este caso las Betas coinciden con las correlaciones de Pearson entre cada una de las variables independientes y la dependiente. Esto es lógico ya que, no al existir correlación entre las X’s, cada una de ellas aporta al modelo lo mismo que es capaz de explicar individualmente.
Análisis Multivariante
ANEXO
Caso: Inmobiliaria Nuez
(Teresa Obis Artal)
Análisis Multivariante
4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS
El modelo de regresión lineal de primer ordeny = β0 + β1x + ε
donde:
y = variable dependiente o variable a explicar x = variable independiente o variable explicativa
ε (epsilon) = error o perturbación aleatoria
β0 = origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la
y.
β1 = pendiente de la recta o coeficiente de regresión: nos indica en cuanto
aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.
Qué nos interesa:
1. Cómo se calculan los coeficientes de regresión, β0 y β1
2. Cómo se interpretan
3. Cómo se determina si son o no estadísticamente significativos 4. Cómo se comprueban las hipótesis del modelo
Análisis Multivariante
4.1
ESTIMACIÓN DEL MODELO DE REGRESIÓN POR
MÍNIMOS CUADRADOS ORDINARIOS
Con los datos de la muestra se pueden estimar los parámetros desconocidos del modelo del siguiente modo:
y = β0 + β1x + ε
∃
y
= 0∃
β
+ 1∃
β
x∃
y
i =β
∃
0 + 40xi iy
-y
∃
i = yi - ( 0∃
β
+ 1∃
β
xi)SSE (Suma de Errores al Cuadrado) = i n =
∑
1 [y
i - ( 0∃
β
+ 1∃
β
xi)]2La recta de mínimos cuadrados ordinarios es, precisamente, aquella que minimiza la suma de los errores cuadrados.
Fórmulas para obtener los estimadores mínimos cuadrados Pendiente: 1
∃
β
= xy xxSS
SS
Origen: 0∃
β
=y
- 1∃
β
x
donde SSxy = i i( )( )
i ix y
x
y
n
i 1 n i 1 n i=1 n
−
∑
=∑
=∑
SSxx = i( )
i 2 2x
x
n
i=1 n i=1 n
∑
−
∑
n = tamaño de la muestraLos estimadores mínimos cuadrados son los mejores que se
pueden conseguir (insesgados, eficientes y consistentes) si se
cumplen ciertas hipótesis sobre
ε
(los errores)
Análisis Multivariante
5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL
La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusándola de que vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el gerente de esta inmobiliaria ha conseguido información sobre ventas de pisos de los últimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos se dispone del precio de venta del piso así como de la superficie del mismo (en m2), el número de habitaciones, la antigüedad de la vivienda, en qué zona se localiza, el mes de la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia.¿El precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido?
Descriptivos precio vivienda (miles euros)
469 56,697 10,931 ,505 55,706 57,689 31,205 89,819 49 52,477 8,920 1,274 49,915 55,039 35,000 78,494 518 56,298 10,820 ,475 55,364 57,232 31,205 89,819 Otra Nuez Total N Media Desvia-ción típica Error típico Límite inferior Límite superior Intervalo de confianza para la media al 95% Mínimo Máximo
CONCEPTOS BÁSICOS:
Media: es la suma de los valores de las observaciones dividido por el número de observaciones.
Desviación típica: raíz cuadrada positiva de la suma de cuadrados de las distancias entre la media y cada elemento, dividido por el número total de observaciones (menos una). Es decir, es una distancia promedio entre las observaciones y la media.
Error típico: se calcula como la desviación típica divida por la raíz de n (tamaño de la muestra). Es la desviación típica de la distribución muestral de las medias. Es decir, es la distancia promedio entre las medias de distintas muestras y la media de la población. Intervalo de confianza para la media al 95%: se calcula como la media de la muestra
±1,96 veces el error típico. Es el intervalo donde se encuentra la media de la población al 95% de confianza.
5.1
COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:
Análisis Multivariante
Coeficientesa 13,819 1,874 7,374 ,000 ,477 ,021 ,712 23,037 ,000 (Constante) superficie de la vivienda (m2) 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizados t Sig.Variable dependiente: precio vivienda (miles euros) a.
Constante
β
0: En el origen, cuando todas las variables son cero (es decir,
un piso sin superficie) el precio del piso es de 13819 Euros.
Pendiente β
1: Por cada m² de más del piso, su precio aumenta en 477 Euros.
5.2
CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN
β
0Y
β
1Coeficientesa 13818,516 1873,995 7,374 ,000 477,027 20,707 ,712 23,037 ,000 (Constante) superficie de la vivienda (m2) 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizados t Sig.
Variable dependiente: precio de la vivienda (euros) a. Coeficientesa ,013819 ,001874 7,374 ,000 ,000477 ,000021 ,712 23,037 ,000 (Constante) superficie de la vivienda (m2) 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizados t Sig.
Variable dependiente: precio de la vivivenda (millones euros) a. Coeficientesa 13,819 1,874 7,374 ,000 ,0000477 ,0000021 ,712 23,037 ,000 (Constante) superficie vivienda (cm2) 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizados t Sig.
Variable dependiente: precio vivienda (miles euros) a.
5.3
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).
Análisis Multivariante
x y y xS
S
Beta
B
o
S
S
B
Beta
1=
1⋅
1=
1⋅
Coeficientesa 13,819 1,874 7,374 ,000 ,477 ,021 ,712 23,037 ,000 (Constante) superficie de la vivienda (m2) 1 B Error típ. Coeficientes no estandarizados Beta Coeficientes estandarizados t Sig.Variable dependiente: precio vivienda (miles euros) a.
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS:
Constante
βETA
0:la recta
de regresión con variables
estandarizadas pasa siempre
por el origen. Cuando se
estandarizan las variables se
hace un cambio de ejes y se
sitúan en el valor medio de
X e Y, por donde pasa la
recta de regresión
superficie de la vivienda (m2)140 120 100 80 60 40
precio vivienda (miles euros)
100 90 80 70 60 50 40 30
Pendiente βETA
1:
Por cada unidad estándar de más de superficie
del piso, el precio aumenta en 0,712 unidades estándares de
precio
Estadísticos descriptivos
56,298 10,820 518 89,05 16,15 518 precio vivienda (miles euros)
superficie de la vivienda (m2) Media Desviación típ. N