Análisis de HAPs por componentes principales

Capítulo 5. Estudio de Hidrocarburos Aromáticos Policíclicos (HAPs) mediante

5.4. Análisis de HAPs por componentes principales

Para realizar este tipo de análisis no es necesario el planteamiento de un modelo inicial, ni tampoco establecer qué variables son dependientes o cuáles son las variables independientes. Sin embargo, si es necesario que las variables estén altamente correlacionadas entre sí.

Debido a que los datos de concentración calculados y reportados en la Tabla F.4 del Apéndice F, el cual esta referido a las cantidades de concentración de HAPs encontrados en las muestras de filtros (μg/m3_{HAPs) luego del análisis químico realizado en el laboratorio del}

Centro de Calidad Ambiental del ITESM, Campus Monterrey, son demasiado pequeños y prácticamente despreciables, se considerará el supuesto de que dicho valor sea el tomado para el análisis, es decir:

Si el valor reportado por el laboratorio lleva un signo “menor que” delante del número, entonces se considerará dicho número.

Si el valor reportado no lleva ningún signo delante del valor, entonces se tomará el mismo valor, sin cambio alguno.

A partir de estos datos, se siguen tres pasos en el proceso de Análisis por Componentes Principales:

Paso 1:Elaboración de la Matriz de Correlaciones

Se obtiene una matriz en la que se ubican las correlaciones entre todas las variables consideradas. Es muy conveniente solicitar una serie de pruebas conexas (tests) que nos indicarán si es pertinente, desde el punto de vista estadístico, llevar a cabo el Análisis Factorial con la data y muestras disponibles y que la mayoría de programas computarizados que realizan el Análisis Factorial ya disponen de una serie de tests que permiten verificar si es posible llevar a cabo el mismo. Entre los principales tests tenemos:

1.

El Test de Esfericidad de Bartlett, que se utiliza para probar la Hipótesis Nula que afirma que las variables no están correlacionadas en la población. Es decir, comprueba si la matriz de correlaciones es una matriz de identidad. Se puede dar como válidos aquellos resultados que nos presenten un valor elevado del test y cuya fiabilidad sea menor a 0.05. En este caso se rechaza la Hipótesis Nula y se continúa con el Análisis.

2.

El Índice Kaiser-Meyer-Olkin: Mide la adecuación de la muestra. Indica qué tan apropiado es aplicar el Análisis Factorial. Los valores entre 0.5 y 1 indican que es apropiado aplicarlo.

En la Tabla 5.3 se presenta la matriz de correlación la cual se calculó al ingresar los datos en la opción de “Análisis de Factores” del programa SPSS.

Tabla 5.3. Matriz de Correlación. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 2 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 3 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 4 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 5 0.92 0.92 0.92 0.92 1 0.92 0.98 0.96 0.92 0.90 0.96 0.94 0.96 0.92 0.97 0.98 6 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 7 0.90 0.90 0.90 0.90 0.98 0.90 1 0.98 0.90 0.90 0.95 0.93 0.95 0.90 0.97 0.96 8 0.91 0.91 0.91 0.91 0.96 0.91 0.98 1 0.90 0.90 0.91 0.88 0.90 0.91 0.95 0.93 9 0.99 0.99 0.99 0.99 0.92 0.99 0.90 0.90 1 0.77 0.80 0.76 0.79 0.99 0.84 0.90 10 0.74 0.74 0.74 0.74 0.90 0.74 0.90 0.90 0.77 1 0.95 0.94 0.95 0.74 0.93 0.86 11 0.79 0.79 0.79 0.79 0.96 0.79 0.95 0.91 0.80 0.95 1 1 1 0.79 0.97 0.94 12 0.75 0.75 0.75 0.75 0.94 0.75 0.93 0.88 0.76 0.94 1 1 1 0.75 0.96 0.93 13 0.79 0.79 0.79 0.79 0.96 0.79 0.95 0.90 0.79 0.95 1 1 1 0.79 0.97 0.94 14 1 1 1 1 0.92 1 0.90 0.91 0.99 0.74 0.79 0.75 0.79 1 0.84 0.91 15 0.84 0.84 0.84 0.84 0.97 0.84 0.97 0.95 0.84 0.93 0.97 0.96 0.97 0.84 1 0.97 16 0.91 0.91 0.91 0.91 0.98 0.91 0.96 0.93 0.90 0.86 0.94 0.93 0.94 0.91 0.97 1

Según se puede observar, el grado de correlación que existe entre los 16 HAPs es superior al valor mínimo aceptable de 0.582 establecido por la medida de adecuación muestral de Kaiser-Meyer-Olkin (KMO), teniéndose como el valor mínimo de correlación igual a 0,74, por lo que se puede proseguir con el análisis de factores para poder determinar cuantas componentes (o factores) como máximo, es conveniente tomar para que puedan representar a una varianza acumulada que sea representativa del total de los datos.

En la Figura 5.1 se presenta el gráfico de sedimentación para los factores analizados. Se llama así porque se asemeja a una montaña con una meseta en donde se deslizan los escombros, sedimentándose hacia el llano. En el eje de las “X” se representa el número de orden de los factores y en el eje de las “Y”, los valores propios (eigenvalores), que pueden interpretarse como la cantidad de varianza explicada por cada factor.

16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Número de componente 14 12 10 8 6 4 2 0 Autov a lor 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Número de componente 14 12 10 8 6 4 2 0 Autov a lor

Figura 5.1. Gráfico de Sedimentación

Se aprecia también la forma en que van disminuyendo los valores propios, graficando el hecho de que el primer factor es el que más varianza explica, indicándonos que las componentes que hay que retener son aquellas que están por encima de la zona de sedimentación. Para la primera componente principal, se tiene un eigenvalor de 14.949 (ver Tabla F.4 del Apéndice F), el cual representa el 90.588% de la varianza total explicada para los 16 HAPs. Debido a que están ordenados de mayor a menor, los porcentajes de las varianzas acumuladas se irán disminuyendo, pero que en conjunto recolectan el 100% de la varianza total.

Para interpretar los factores hay que ver cómo contribuye cada variable en la explicación de cada factor. Esto es lo que se denomina cargas factoriales de cada variable en cada factor. Una medida que ayuda en la interpretación es la llamada comunalidad que indica la cantidad de varianza que una variable comparte con las demás variables consideradas. Si esta es alta, querrá decir que gran parte de la varianza de cada variable está recogida en los factores seleccionados y, por ello, al emplear los factores en lugar de las variables originales, no estaremos perdiendo mucha información.

En la Tabla 5.4, se presenta de manera resumida el aumento del porcentaje de varianza acumulada según el número de factores que tomemos (ver Tabla F.5 del Apéndice F).

Tabla 5.4. Incremento Porcentual de las Varianzas acumuladas según el número de factores considerados.

Número de Factores Varianza Acumulada Incremento Porcentual 1 90.588% 90.588% 2 98.257% 7.669% 3 99.067% 0.810% 4 99.637% 0.571%

Según el criterio dado por Kaiser, se considerará hasta aquel factor cuyo valor propio (eigenvalores) generen un aumento mayor al 1% de la varianza total, entonces, según los datos de la Tabla 5.4, nuestro análisis se resumiría a tomar solo dos factores.

Una vez decidido el número de componentes a considerar, se realiza una nueva corrida del paquete estadístico SPSS, ingresándose la variable para que se realice el análisis primero con solo 2 componentes y luego con 3, ambos para los 16 HAPs, tal como se muestran en las Tablas F.5 y F.6 del Apéndice F, obtenidos por el método de extracción y sin rotación.

Paso 2: Extracción de factores

Con frecuencia es difícil interpretar los factores iniciales, por lo tanto, la extracción inicial se rota con la finalidad de lograr una solución que facilite la interpretación. Hay dos sistemas básicos de rotación de factores: los métodos de rotación ortogonales (mantienen la independencia entre los factores rotados: varimax, quartimax y equamax) y los métodos de rotación no ortogonales (proporcionan nuevos factores rotados que guardan relación entre sí). En el presente estudio aplicaremos los métodos de rotación ortogonales, específicamente el Método de Rotación Varimax que es uno de los métodos más utilizados para “Componentes Principales”.

Este procedimiento busca hallar un factor principal (o factores principales), el cual explique el mayor porcentaje de la varianza total (por arriba del 90% de la varianza acumulada) en la matriz de correlación. Esta varianza explicada se resta de la matriz original produciéndose una matriz residual, para después extraer un segundo factor de esta matriz residual y así sucesivamente hasta que quede muy poca varianza que pueda explicarse (menor al 1%).

En la Tabla 5.5, se presentan las matrices de los factores Sin Rotación, en donde se puede observar que en la columna de los valores para el Factor 1, no hay mucha diferenciación en sus valores como para separar grupos de HAPs que nos puedan llegar a analizar sus fuentes, y en el caso de los valores del Factor 2, se tienen valores negativos, por lo que nos estaría indicando que existen HAPs que no tienen relación con los otros.

También se observa que entre los valores para el Factor 1 no hay mucha diferencia entre sus valores como para separar grupos de HAPs que no estaría muy claro en poder analizar sus fuentes debido a la cercanía entre ellos. En el caso de los valores del Factor 2, se observan valores negativos, por lo que nos estaría indicando que existen HAPs que no tienen relación alguna con los otros, es decir, que serían compuestos totalmente diferentes, lo cual no es muy cierto. Por ello, es necesario realizar una Rotación de ejes para determinar los nuevos valores que se pueda observar una mejor interrelación entre sus varianzas.

Tabla 5.5. Matriz de Componentes Sin Rotación Componente HPAs 1 2 Naftaleno 0.956 -0.292 Acenaftileno 0.956 -0.292 Acenafteno 0.956 -0.292 Fluoreno 0.956 -0.292 Fenantreno 0.992 0.091 Antraceno 0.956 -0.292 Fluoranteno 0.981 0.116 Pireno 0.968 0.060

Benzo [A] Antraceno 0.956 -0.273

Criseno 0.886 0.374

Benzo [B] Fluoranteno 0.932 0.351 Benzo [K] Fluoranteno 0.909 0.399 Benzo [A] Pireno 0.930 0.358 Dibenzo [A,H]

Antraceno 0.956 -0.292 Benzo-Perileno 0.956 0.242 Indeno Pireno 0.976 0.090

Paso 3: Rotación de factores iniciales

Una herramienta muy importante para ayudar a interpretar los factores, es la rotación de los mismos, con lo cual se trata de que una de las variables originales tenga una correlación lo más próxima a la unidad que sea posible con uno de los factores y correlaciones próximas a 0 con el resto de factores. De esta forma, y dado que hay más variables que factores comunes, cada factor tendrá una correlación alta con un grupo de variables y baja con el resto de variables, buscando encontrar rasgos comunes que permitan una interpretación de los resultados a partir de los dos factores ya determinados.

Existen diversos procedimientos de rotación que, fundamentalmente, pueden clasificarse en ortogonales (Quaertimax, Varimax, Equimax) y no ortogonales (Oblimin). Sin embargo, es muy importante dejar claro que no hay un procedimiento mejor que otro. El mejor procedimiento es aquel que permita interpretar mejor los factores resultantes en cada problema que se esté analizando.

La rotación ortogonal consiste en girar los ejes de tal forma que sigan siendo entre sí perpendiculares para que los factores no dejen de estar incorrelacionados. El procedimiento de rotación ortogonal que vamos a utilizar es el varimax normalizado que consiste en maximizar la suma de las varianzas de las cargas factoriales al cuadrado dentro de cada factor dividido por la comunalidad de la variable correspondiente, para evitar que las variables con mayores comunalidades tengan más peso en la solución final. Con la rotación oblicua los ejes ya no son perpendiculares y por lo tanto los factores ya no están incorrelacionados, pero sin embargo aunque ésta sea una característica negativa, con este procedimiento a veces se consigue asociar mejor las variables a sus correspondientes factores.

Las variables del presente estudio se analizaron con la rotación por Varimax, que es la más conocida y viene incluida en el paquete estadístico SPSS, generándose de esta manera una nueva matriz, el cual es una nueva combinación lineal a partir de la primera, explicando el mismo porcentaje de varianza, pero buscando que los nuevos valores que se calculan se encuentren más distanciados en un intervalo de cero a uno, de tal manera que sean más fáciles de agrupar en pequeños grupos cuando se grafique en un plano.

En la Tabla 5.6 se presentan los valores para las componentes 1 y 2 después de haber corrido el paquete estadístico SPSS para cada uno de los 16 HAPs, obtenidos mediante por el método de extracción de análisis de componentes principales, y con una rotación de Normalización Varimax con Kaiser, y en donde se observa que cada variable ya está saturada en una de las dos componentes como por ejemplo, el Naftaleno presenta el valor más alto en el factor 1, con un valor de 0.893, pero a su vez presenta el valor de 0.45 que es el más bajo. Por otro lado, se observa que el Benzo [K] Fluoranteno presenta en el factor 2, un valor máximo de saturación igual a 0.916, pero que en contrapartida, presenta un mínimo valor en el factor 1.

Tabla 5.6. Matriz de Componentes Rotados con Varimax Componente HAPs 1 2 Naftaleno 0.893 0.450 Acenaftileno 0.893 0.450 Acenafteno 0.893 0.450 Fluoreno 0.893 0.450 Fenantreno 0.654 0.751 Antraceno 0.893 0.450 Fluoranteno 0.629 0.761 Pireno 0.658 0.713

Benzo [A] Antraceno 0.880 0.463

Criseno 0.382 0.883

Benzo [B] Fluoranteno 0.432 0.897 Benzo [K] Fluoranteno 0.382 0.916 Benzo [A] Pireno 0.425 0.901 Dibenzo [A,H] Antraceno 0.893 0.450 Benzo-Perileno 0.524 0.835 Indeno Pireno 0.643 0.739

Para poder observar y determinar claramente cuales son HAPs están relacionados entre si, se grafican los valores obtenidos en los factores 1 y 2, ubicándolos en forma de puntos en una plano XY (se ubican en el Eje “X” los valores del Factor 1 y en el Eje “Y” los del Factor 2).

En la Figura 5.2 se presentan los puntos graficados en dos dimensiones, en donde se aprecia la distribución de los 16 HAPs en 3 grupos que pueden guardar una relación entre sí. Solamente el 15avo_{hidrocarburo, el Benzo Perileno, no se encuentra relacionado tan}

estrechamente en ninguno de los 3 grupos como si lo están los otros 15 HAPs, pero tampoco se encuentra en una ubicación que nos deduzca que no guarde alguna relación con los otros HAPs.

Figura 5.2 Ubicación de los HAPs según factor 1 y factor 2.

Tabla 5.7. HAPs agrupados por factores.

Grupo 1 Grupo 2 Grupo 3

Naftaleno Criseno Fenantreno

Acenaftileno Benzo [B] Fluoranteno Fluoranteno Acenafteno Benzo [K] Fluoranteno Pireno

Fluoreno Benzo [A] Pireno Indeno Pireno

Antraceno Benzo [A] Antraceno

En la Tabla 5.7 se presentan los HAPs agrupados según se observa en la Figura 5.2 y que dependen los valores de los factores obtenidos mediante el análisis de componentes principales. No se está considerando al hidrocarburo Benzo Perileno entre los 15 HAPs que se distribuyen entre los 3 grupos.

Los tres HAPs reconocidos como los más tóxicos son el benzo (a) pireno, el dibenzo (a,h) antraceno y el benzo (b) fluoranteno, los cuales han sido reconocidos con suficiente evidencia de carcinogeneidad en animales y probables cancerígenos en humanos (IARC 1987).

In document Estudio Comparativo de las Características Físicas de las Partículas PM10 en la Atmósfera de Tres Ciudades Mexicanas Edición Única (página 125-135)

Análisis de HAPs por componentes principales

Capítulo 5. Estudio de Hidrocarburos Aromáticos Policíclicos (HAPs) mediante

5.4. Análisis de HAPs por componentes principales





1.

2.

Paso 2: Extracción de factores

Paso 3: Rotación de factores iniciales