Pruebas estadísticas en las variables y técnica de componentes principales

5. Metodología

5.1 Pruebas estadísticas en las variables y técnica de componentes principales

Inicialmente se aplicó un análisis estadístico en las variables, las pruebas de normalidad y de linealidad, esto con el fin de indagar significancia estadística en los datos. La prueba de normalidad según (Hair, Anderson, Tatham, & Black, 1995) es una de las hipótesis más importantes, ya que muestra la distribución de frecuencias de cada variable; para la detección de las hipótesis de normalidad existen dos tipos: estadísticos y gráficos.

El autor sugiere para los estadísticos la prueba Kolgomorov-Smirnov-Lilliefors (KSL), esta ayuda a determinar si los datos tomados de las variables siguen o no distribuciones normales.

El autor sugiere en el test KSL una hipótesis nula en donde se supone que los datos se distribuyen con normalidad, para esto se debe comprobar si para alguna variable existe un valor p por debajo del nivel de significancia al 95%, si el valor p se encuentra por encima de 0,05, se podrá decir que la variable es normal y significativa.

Con respecto a la prueba de normalidad basada en gráficos, existen el gráfico q-q o gráfico de probabilidad normal, en este gráfico se muestran los valores de los residuos, si las variables no se encuentran normalmente distribuidas, se alejaran de la recta.

Por otro lado, cuando se habla de linealidad se hace referencia al grado de significancia de las correlaciones entre las variables que existan; cuando existe ausencia de linealidad, el coeficiente de correlación no mide de manera óptima la relación entre el par de observaciones (Hair, Anderson, Tatham, & Black, 1995). Cuando las correlaciones de Pearson para todas las variables presentan el signo asterisco (*) se asegura que esa correlación es significativa con un p del 0,05, si existe el signo ** es con un p del 0,01, cabe resaltar que para este caso se tiene en cuenta el primer nivel de significancia (0,05).

Por su parte el Análisis de Componentes principales (ACP) es una técnica que fue desarrollada por Pearson a finales del siglo XIX y luego estudiada por Hotelling en los años 30 del siglo XX. Presenta inicialmente unas variables correlacionadas (que miden información común), este grupo de datos puede ser transformado en otro conjunto de variables incorreladas entre sí (que no tenga repetición o sean redundantes en la información) llamado conjunto de componentes principales. Este nuevo grupo de variables son combinaciones lineales de las anteriores y se construyen de acuerdo al orden de importancia en cuanto a la variabilidad total que recogen de la muestra total (De la Fuente, 2011).

El autor propone en este orden de ideas que se considera una serie de variables (x1, x2,….xn) sobre un grupo de objetos y se trata de calcular, a partir de este grupo, un nuevo conjunto de variables (y1, y2,…yn), que están incorreladas entre sí, y donde cuyas varianzas vayan decreciendo progresivamente. Cada yj (j=1,2…n) es una combinación lineal de las (x1, x2,…xn) originales, lo que significa: Y1=aj1x1+aj2x2+…ajnxn. El primer componente se calcula eligiendo a1 de modo que y1 tenga la varianza mayor, sujeta a la restricción aj*aj=1. El segundo componente principal se calcula obteniendo a2 de modo que la variable y2 esté incorrelada con y1. De la misma forma se eligen (y1, y2,….yn) de manera que las variables aleatorias obtenidas van teniendo cada vez menor varianza.

5.1.1. Cálculo del IDUM

Para la elaboración del indicador se determinaron 26 variables que conformaron el IDUM. Inicialmente se normalizaron las variables para poder sumar y ponderar variables que tienen escalas y unidades de medida diferentes.

La transformación de estos datos está en una escala de 0 a 100, de la siguiente forma: Zi (1) = 100 x max(𝑋𝑖)−𝑋𝐼

max(𝑋𝑖)−min(𝑋𝑖)

Donde Xi son las variables a normalizar y sus transformaciones son las Zi.

Una vez efectuado el proceso de transformación, se realizó un análisis y revisión de la normalidad en las variables seleccionadas, , así mismo se realizaron pruebas de linealidad para determinar el grado de significancia de las correlaciones entre las variables, todos estos análisis se realizaron con el software SPSS Statistics 20. Posteriomente, se realizó el ejercicio de componentes principales, con el software Weka 3.6 que permitió la reducción de componentes y determinó las cargas factoriales por áreas urbanas y por variables.

Según (Malhotra, 2008) para la óptima definición de los factores o componentes se facilita el identificar las variables que tienen las cargas altas sobre el factor, por lo que ese factor puede interpretarse en términos de las variables que tienen cargas altas de él. Para (Zamora, Monroy, & Chávez, 2010) las cargas factoriales indican la correlación entre cada variable y el factor o componente correspondiente, en ese orden de ideas, una variable con mayor carga factorial será más representativa del factor. En este sentido, para la elaboración del IDUM, se procedió a multiplicar las dos cargas factoriales significativas de los componentes por la variable explicativa correspondiente de cada área metropolitana, de la siguiente manera:

(C1:(CF1*X1AM) + (CF2*X1AM)) + (C2:( CF1*X1AM) + (CF2*X1AM)) +…… (C11:(CF1*X1AM) + (CF2*X1AM))

El CF1 es la carga factorial 1, CF2 es la carga factorial 2, X1AM se refiere a la variable significativa de la carga factorial para cada área urbana, el procedimiento es el mismo para todos los componentes, desde el primero hasta el onceavo.

Al final, se sumaron los resultados por área metropolitana, se normalizaron los resultados para tener valores entre 0 a 100 del IDUM. Finalmente con los resultados a obtenidos se asignaron categorías para el análisis y el ranking de las áreas.

In document Centro de Recursos para el Aprendizaje y la Investigación, CRAI-Biblioteca Universidad Santo Tomás, Bucaramanga (página 68-71)