En este módulo, usaremos R y R-Commander para analizar dos o más variables (bivariadas o multivariadas). Número de variables incluidas en el análisis: podemos trabajar con sólo dos variables (análisis bivariado) o más (análisis multivariado). Así, podemos concluir que encontramos varias técnicas que prevén el análisis de más de una variable, aunque sólo abordaremos algunas de ellas en este módulo.
En concreto, hemos dividido los apartados que veremos en tres apartados: en el primero trabajamos sobre modelos de regresión; en el segundo caso, el análisis de varianza y tablas de contingencia; y en la tercera parte, el análisis de componentes principales y el análisis de cluster.
Modelos de regresión
Introducción
Modelo de regresión lineal simple (MRLS)
Por tanto, el objetivo de estimar el modelo será hacer inferencias sobre él. El primer concepto es teórico e inobservable, mientras que el segundo depende de la muestra y del método de estimación elegido, haciéndolo medible y analizable. Residuos. Mínimo, máximo y cuartiles de los residuos de regresión, que proporcionan información sobre su distribución.
Coeficientes La tabla en la que se presenta la información sobre la evaluación de los parámetros (o coeficientes) estimados. Estadístico F. Estadístico F para el contraste de significancia global o conjunto de los parámetros estimados del modelo. Como en el caso de la constante, el valor cero se incluye en el intervalo de confianza (los extremos son de signo opuesto).
Modelo de regresión lineal múltiple (MRLM)
Si dos o más variables tienen una alta correlación entre sí, puede resultar problemático incluirlas al mismo tiempo como variables explicativas. Como podemos observar, todos los coeficientes estimados son significativos, aunque el ajuste del modelo (R2=0,278) es bastante pobre. Recuerde que para obtener el IC de los parámetros debemos seleccionar el modelo, seguir la ruta Modelos/Intervalos de Confianza y seleccionar el nivel de confianza deseado.
En nuestro ejemplo, solo agregamos los residuos y los valores ajustados a la línea a nuestro conjunto de datos. Lo más lógico es que no estemos satisfechos con el modelo estimado y queramos mejorar su estimación. Para calcular este nuevo modelo, una posible solución sería crear una nueva variable, log(MOT OR), agregarla al conjunto de datos y estimar el nuevo modelo como lo hicimos antes.
Sin embargo, tenemos a nuestra disposición una alternativa más rápida y eficiente: un completo cuadro de diálogo que nos permite ingresar variables transformadas (aplicar logaritmos a una variable, elevarla al cuadrado, etc.) o multiplicarlas; o incluso podemos seleccionar un ejemplo de nuestra base de datos. Aparecerá el siguiente cuadro de diálogo, en el que ingresaremos la fórmula del modelo, que tiene dos partes: la variable dependiente y el conjunto de regresores o variables explicativas. Es importante señalar que el resultado de la estimación siempre muestra dos valores del coeficiente de determinación, uno de los cuales se denomina coeficiente de determinación ajustado.
La razón es que cuando se agregan nuevas variables explicativas a un modelo, el valor de R2 aumentará, incluso si estas nuevas variables no agregan nada nuevo al modelo. Por la misma razón, el valor ajustado de R2 incluye una penalización por el número de regresores que contiene el modelo.
Análisis de la varianza (ANOVA) y tablas de contingencia
Análisis de la varianza (ANOVA)
El primer paso para realizar el análisis que proponemos es crear una variable compuesta. Esto significa que de las tres variables que tenemos (cada una con 30 observaciones), creamos una sola con 30×3=90 observaciones, con una variable cualitativa asociada que indica el tipo de vehículo. Una vez hecho esto, también crearemos un nuevo conjunto de datos que tiene el nombre predeterminado de StackedData, aunque podemos cambiarlo si queremos.
Si ahora vamos a la opción Ver conjunto de datos, veremos que tiene dos variables de 90 observaciones: numérica (número de vehículos) y factorial (tipo de vehículo). Esto significa que, estadísticamente hablando, la media poblacional (μ) de accidentes de automóviles, motocicletas y camiones es la misma. Por otro lado, una MSC relativamente alta significa que la variación en los datos se debe a factores externos ajenos a los grupos.
El resultado del contraste ANOVA aparece primero, seguido de la media y la desviación estándar de los tres tipos de vehículos. Según el primer resultado, vemos que la dispersión explicada por los grupos es muy pequeña (S CE=0,62), mientras que la dispersión restante explicada por otros factores diferentes es mayoritaria (S CD = 160,67). Si los valores p son inferiores a 0,05, rechazamos la hipótesis nula y podemos asegurar que el número medio de accidentes depende del tipo de vehículo.
Si los valores p son mayores que 0,05, no rechazamos la hipótesis nula y por tanto no podemos asegurar que el número medio de accidentes dependa del tipo de vehículo. En nuestro ejemplo, H0 claramente no se rechaza y concluimos que no podemos asegurar que el número promedio de accidentes dependa del tipo de vehículo.
Tablas de contingencia
Una vez hecho esto, si visualizamos el conjunto de datos activo, veremos que se han creado tres variables compuestas por unos y ceros. Una vez calculadas estas variables, sería cuestión de analizar si son independientes o dependientes del tipo de vehículo. Luego utilizaremos la prueba de independencia χ2, que nos permite comparar, a partir de una tabla de contingencia, las frecuencias observadas con las que, en teoría, deberían ocurrir si hubiera independencia.
En esta tabla habrá dos categorías (G1 y G2) en las filas, la primera para los valores uno y la segunda para los valores cero. Además, en este caso hay que diferenciar el número de días de los que se dispone de datos (n=30) y el número total de observaciones, que es N=3·n=90. En R-Commander el siguiente paso será calcular G1 y G2, es decir, la suma de unos y ceros para cada tipo de vehículo.
Con esta información, considerando que existen 30 datos para cada tipo de vehículo, ya sabemos que la tabla de contingencia a analizar será esta: En el caso independiente. La cuestión consiste en determinar si las diferencias ni j −n0i j son aleatorias, es decir, hay independencia, o si por el contrario estas diferencias son muy grandes y se debe aceptar que existe algún tipo de asociación entre ambas. Estratos. En nuestro caso, L = 2 es el número de dimensiones horizontales y K = 3 es el número de dimensiones verticales.
En este caso el valor del estadístico es 0.317 y con un 95% de confianza el p-valor>0.05 significa que no se puede rechazar H0, es decir, hay independencia y no encontramos relación entre más de 2 accidentes y el tipo de vehiculo.
Análisis de componentes principales y análisis clúster
Introducción
Análisis de componentes principales (ACP)
Desde un punto de vista matemático, losk valores propiosλ1,. . , λk de una matriz cuadrada satisface estas propiedades. Por este motivo, y especialmente cuando el grado de correlación entre algunas variables es elevado, el uso de la técnica PCA está más que justificado, ya que lo que hace es reducir las variables a un número menor de componentes principales (PC), entre los cuales no hay correlación (es decir, son ortogonales). Calcular los valores propios de la matriz de varianza y covarianza daría un resultado similar.
Como vemos, la magnitud de los dos primeros valores propios en comparación con el resto es enorme. Como vemos, la magnitud de los dos primeros representa casi el total de la suma de valores propios. >. Como vemos, los dos primeros componentes acumulan el 56,4% y el 39,7% de la proporción de la varianza total, respectivamente.
La última fila nos muestra que el 96,1% de la variabilidad total de las seis variables se recoge entre los dos componentes. Por otro lado, en la consola Ra aparecerá un gráfico con los valores propios de los componentes principales. En este caso, está claro que los dos primeros componentes son suficientes para explicar la variabilidad de los datos.
Después de guardar los dos componentes principales, estas dos nuevas variables aparecerán cuando volvamos a visitar nuestro conjunto de datos. Para tener evidencia visual de cómo los dos componentes principales seleccionados explican la variabilidad de los datos, es recomendable crear un diagrama de dispersión de los dos componentes y ver cómo se distribuyen las observaciones.
Análisis clúster
Así, los grupos o clusters se identifican estimando las distancias relativas entre puntos, lo que permite calcular la homogeneidad relativa de cada grupo y el grado de separación entre diferentes grupos. La puntuación media en muestras de diferentes ocupaciones se incluye en la base de datos que se muestra a continuación: En este caso, el objetivo del análisis de conglomerados será estudiar la distancia entre diferentes ocupaciones en función de las similitudes entre las cuatro variables de la encuesta.
La función dist proporciona la matriz de distancias entre diferentes variables y la distancia euclidiana es la opción predeterminada. Seleccionar, del conjunto de datos, de la segunda a la quinta columna, que corresponden a las variables que deseamos analizar. Una herramienta visual cómoda para ello es el dendrograma, cuya función es mostrar la formación de conglomerados, así como las distancias entre ellos. Antes de realizar el dendrograma es recomendable clasificar las variables para que no haya efectos de escala.
Una vez hecho esto, para ejecutar el dendrograma con R-Commander sigue la siguiente ruta. Aparece el siguiente cuadro de diálogo, en el que seleccionamos las variables de interés, el método de agrupación, la medida de distancia y si queremos visualizar el dendrograma gráficamente. El resultado gráfico aparece a continuación, y en él se puede observar que existen dos grandes grupos profesionales: a) docente, ingeniero, abogado y banquero; y b) camarero, cocinero, taxista y jornalero.
Aparece el siguiente cuadro de diálogo, en el que seleccionamos el número de grupos en los que queremos organizar los datos (en nuestro caso dos), además del resumen numérico y el gráfico correspondiente. Y del otro lado nos sale una gráfica en la que podemos observar visualmente las ocho observaciones (cuatro pertenecen al grupo 1 y otras cuatro al grupo 2), en un plano cartesiano de componentes principales: