Selección de variables en cebada mediante el análisis de componentes principales

11 

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)SELECCION DE VARIABLES EN CEBADA MEDIANTE EL ANALISIS DE COMPONENTES PRINCIPALES. Jorge H. Argtiefles C.. RESUMEN El propósito fundamental del análisis de componentes principales (ACP) es el de reducir Ia dimensionalidad de un conjunto de datos donde existan variables con cierto grado de correlación. Dicha reducción se basa en Ia obtención de combinaciones lineales de todas las variables originales denominadas componentes principales (CP), y Ia posterior selección de un nUmero adecuado de éstas, de tal forma que se preserve Ia mayor parte de Ia variación original. El hecho de que las CP sean combinaciones lineales de todas las variables originales, puede ser un inconveniente desde el punto de vista de interpretación cuando el nCimero de estas es grande o cuando el objetivo es seleccionar las variables para ser consideradas en estudios futuros. Con elfin de solucionar lo anterior, Jolliffe (5, 6) y McCabe (10), proponen una serie de metodologias para selección de variables, basadas en el ACP. En este trabajo se comparan dichas metodologlas desde dos puntos de vista: buscando relaciones analiticas entre ellas, y mediante su utilización en el análisis de datos reales provenientes de un ensayo de cien genotipos de cebada. Palabras Claves Adicionales: SelecciOn de variables, análisis de componentes principales. ABSTRACT Selection of Variables in Barley Using Principal Components Analysis The fundamental purpose of the principal components analysis (PCA) is to reduce the dimensionality of a data set when there are variables with some degree of correlation. This reduction is based on the attainment of linear combination from the original variables called principal components (PC), and subsequently to choose an adequate number of them, so it will keep the greater part of the original variation. The fact that PC are linear combinations all the original variables, could be an inconvenient in the interpretation when the number of variables is large or when the objetive is to select variables for further studies. To solve this, Jolliffe (5, 6) and McCabe (10), proposed some methodologies to select variables based on the PCA. In this paper these methodologies are compared, from two points of view: searching analytical relationships among variables and through their utilization in the real data analysis from one hundred genotipes test of barley.. Additional Index Words: Selection of variables, principal components analysis.. •. I.A. MSc. Division de Estadistica y Biometria, ICA. Centro de Investigaciones "La Libertad". A.A. 2011 Villavicencio (Meta).. 355.

(2) RE VISTA ICA, VOL. 25 -. OCTUBRE - DICIEMBRE 1990 El propOsito fundamental del análisis de componentes principales (ACP) es reducir Ia dimensionalidad de un grupo de datos donde exista un gran nUmero de variables interrelacionadas. Esta reducciOn consiste en un conjunto de transformacjones lirieales que producen nuevas variables no correlacionadas, denominadas componentes principales (CP), con Ia caracteristica de que cada componente proviene de Ia cornbinaciOn lineal de todas las variables originales. Generalmente un nUmero pequeno de estas CP, es suficiente para expresar adecuadamente la Variabilidad total (suma de varianzas) de las variables originales (3, 1). El hecho de que los componentes principales sean combinaciones lineales de todas las variables originales, puede ser un inconveniente en el ACP, sabre todo si Ia interpretaciOn de dichas combinaciones resulta difIcjl, ya que, aunque se logre Ia reducciOn de dimensionalidad deseada, se necesitan todas las variables originales para obtener los componentes principales. Por esta razOn, en ocasiones es deseable no sOlo reducir Ia dimensionalidad espacial, sino el nUmero de variables a ser consideradas. Para solucionar los problemas anteriores, Jolliffe (5, 6) y McCabe (10), entre otros autores, han propuesto una serie de metodologias para descartar variables utilizadas en la técnica de componentes principales.. El Modelo para el AnáIisis de Componentes Principales Okamoto (11), Kshirsagar (9), Rao (12), Seber (13) y Krzanowski (8), entre otros autores, plantean el modelo siguiente para el ACP. los elementos de un vecSean X1, X.....X, 2 p tor aleatoric x, con vector de medias 0 y matriz de varianzas y covarianzas E = (a), donde E es una matriz pxp real y definida positiva. Sean ade... ?X >0 los elgenvalores de Ia más X 2! sus respectivos eigenvecmatriz 1, yL,L2 tores. Existe una matriz ortogonal L, de tamaño pxp cuyos vectores columna corresponden a los eigenvectores de E es decir:. que permite hacer Ia descomposiciOn espectral de L=LAL',. [11. donde A = diag(X1 , X2 , ..., X). De [11 resulta que = x1 1 e1 + X2. t2 2 + - +. p. 'p. Considérese ahora Ia transformaciOn ortogonal El objetivo del presente trabajo es describir y comparar dichas metodologias para seleccionar las variables de mayor relevancia que se hayan sometido a un ACP. Esta comparaciOn se harä desde dos puntos de vista: buscando relaciones anãliticas entre dichas metodologias, y mediante su utilizaciOn en el anlisis de datos reales.. MATERIALES V MET000S. Con frecuencia es dificil determinar el nUmero adecuado de componentes a seleccionar. Si los datos originales han ido estandarizados y los análisis se basan en Ia matriz de correlaciones, muchos autores e investigadores recomiendan retener unicamente aquellos componentes con eigenvalores mayores que 1. Otro criterio muy utilizado cuando los datos han sido o no estandarizados, es retener un nUmero de componentes tat que Ia mayor parte de Ia varianza total, por ejempto un 80% al menos, sea explicada (3). 356. Y=L'x. [2]. Entonces y1 , y2, ..., y, los elementos de y, son Ilamados componentes principales de x. El elemento y1 es denominado primera componente principal (CP) y posee Ia maxima varianza, y2 es Ia segunda CP con Ia segunda méxima varianza, etc. De [1] y [21 se tiene que V(y) = A. [3]. puesto que L' L = I. Puede concluirse de Ia ecuaciOn [3] que las CP son no correlacionadas, y que sus varianzas estén definidas por los eigenvalores X1 , X2 ..., X de Ia matriz E. La variaciOn total de x puede medirse por Tr (s), Ia traza de Ia matriz E, o por su varianza generalizadaII, el determinante de E. De [1] se tiene que:.

(3) ARGUELLES C. Jil. SelccciOn de variables en cebada Y.. = Tr() = Tr(A)= además p. ll= lAl = II. que hayan sido sometidas a un ACP. El primero ocurre cuando no es fácil dar una interpretaciOn práctica satisfactoria a las componentes principales.. \. Todo el planteamiento anterior se basa en el conocimiento de la matriz 2. Sin embargo, en la práctica este no es el caso, ya que sOlo se conoce S, Ia matriz de varianzas y covarianzas muestrales de las variables originales observadas. SupOngase ahora que se dispone de una muestra aleatoria de tamaño n del vector aleatorio x con distribuciOn normal p-variada, con vector de medias ,u y matriz de varianzas y covarianzas L. Es decir, se observan p variables en cada uno de n individuos u objetos (n > p), y los valores obtenidos conlorman Ia matriz de datos X de tamaño nxp. De acuerdo con Kshirsagar (9), el estimador de maxima verosimilitud de estO definido por: S = (i/n-i) X' (I - (1/n) J) X, donde l es una matriz identidad de dimensiOn n, y J.es una matriz nxn cuyos componentes son iguales a 1.. El segundo caso es sugerido por el hecho de que aunque se logre el objetivo fundamental del ACP (unas cuantas componentes explican una buena proporci6n de Ia variabilidad presente en las variables originales), de todas maneras para calcular las componentes principales se requieren todas las variables originales (10, 7). En muchas ocasiones, se requiere no solarnente reducir Ia dimensionalidad del espacio coumna de X, sino tambiOn reducir el nümero de variables a ser consideradas en futuros estudios (10). En el anOlisis multivariado, cuando el ntimero de variables originales p es grande, los resultados obtenidos sufren a menudo cambios muy pequeños si se usa un subgrupo k de las variables originales. Las variables restantes son redundantes, hasta cierto punto, y pueden ser descartadas. Es necesario entonces determinar un valor apropiado k de variables seleccionadas (Ic c< p) y decidir cual subconjunto de k variables es el mejor (5, 6).. Métodos Propuestos pr Jolliffe Cuando los vectores column a de X han sido estandarizados, Ia matriz S coincide con Ia matriz de correlaciones de las variables originales xv ... Sean >o los eigenvalores deS ros eigenvectores ortonorY 2' males correspondientes, de manera que:. Jolliffe (5, 6) discute cuatro métodos, a los que llama Bi, B2, B3 y B4, para seleccionar un subconjunto de Ic variables de un conjunto mayor que se halla sometido a un ACP. las k variables Seleccionadas son tales que explican Ia mayor parte de la variaciOn presente en X. A continuaciOn se describen esos cuatro procedimientos de selecciOn.. G =(tI2llP)' es tal que S = G D G' donde D = diag (> 1, > 2 ..... Las CP muestrales estan definidas por el vector • z =. Métodos de SelecciOn de Variables en el Análisis de Componentes Principales Se pueden señalar por lo menos dos casos en que surge Ia riecesidad de seleccionar variables. Método Bi .- Con base en un ACP sobre las p variables originales, y partiendo de Ia matriz de ccrrelaciones, se identifican los e1 eigenvalores menores que el valor arbitrario X.= 0.70, con sus respectivos eigenvectores. A continuaciOn se examina el eigenvector correspondiente al eigenvalor de menor magnitud, y se encuentra el mayor coeficiente (en valor absolute); Ia variable asociada con este coeficiente máximo es descartada. La siguiente variable se descarta con el mismo criterio, es decir, del eigenvector que corresponde en orden ascendente al segundo eigenvalor menor. Este procedimiento se repite hasta eliminar e1 variables, cuidando de no con-. 357.

(4) REVISTA ICA, VOL. 25 - OCTUJ3RE - DICIEMBRE 1990 siderar una variable que haya sido suprimida previamente. Las p - e1 variables retenidas son utilizadas para realizar otro ACP. Si aün se obtienen eigenvalores menores a = 0.70 en el ACP realizado sobre las p - e variables retenidas, se procede como en el paso anterior, suprimiendo las e2 variables asociadas a los eigenvectores examinados, en este segundo ACP. Este procedimiento se repite tantas veces como se requiera, hasta que todos los eigenvalores en el Ultimo ACP, sean mayores que X0 = 0.70. El nOmero de variables retenidas o seleccionadas k, esta dado por p - (e, + e + ... + siendo m el nUmero total de ACP ejecutados hasta obtener todos los eigenvalores mayores que X0 = 0.70. Método 62.- Este mOtodo es similar al anterior, con Ia diferencia de que en este caso sOlo efectUa un ACP. La cantidad k de variables seleccionadas, puede determinarse de acuerdo con el nOmero de eigenvalores mayores que el valor arbitrario X = 0.70, o con el nümero de componentes necesarias para explicar determinado porcentaje () de Ia variaciOn total. De acuerdo con 0 anterior, una variable es asociada con cada uno de los Ultimos p - k componentes, de Ia misma forma que en el Método Bi, siendo entonces descartadas. Método 83.- En este método se usan nuevamente los CItimos p - k componentes. Para cada una de las p variables se calcula Ia suma de cuadrados de sus coeficientes en los ültimos p - k eigenvectores. Se descartan las p - k variables para las que esta suma es maxima. La cantidad k de variables retenidas o seleccionadas se determina de acuerdo con los criterios utilizados en el Método anterior. Método B4.- Este ültimo método considera los pnimeros k componentes, siendo hasta cierto punto Ia versiOn hacia atrás (backward) del Metodo B2. Los k componentes son considerados sucesivamente, comenzando con el primero. Una variable es asociada con cada componente de Ia misma manera que en Bi y B2. Las primeras k variables son retenidas y las restantes p - k son descartadas. Nuevamente se usan los criterios de los dos métodos anteriores, para determinar el valor de k. 358. Métodos propuestos por McCabe Por otra parte, McCabe (10) utilizO Ia técnica de componentes principales con el propOsito de generar una serie de metodologias para selecdOn de variables. Sus planteamientos se resumen a continuaciOn. Sea x un vector aleatorio p-dimensional, distribuido normalmente con vector de medias 0 y matriz de covarianzas real y definida positiva. Considérese el vector aleatorioy de dimensiOn k. Y = AX. 141. donde A es una matriz pxk, (k < p), de rango (Ak) = k cuyos vectores columna son ortonormales. Nuevamente k se refiere al nUmero de variables originales retenidas o seleccionadas, es decir, la cantidad de variables necesarias para explicar determinado porcentaje (V) de Ia variaciOn total 161. Se puede observar que Jolliffe (5, 6) y McCabe(10), utilizan criterios distintos para ladeterminaciOn del valor de k. Graybill (4), presenta los siguientes resultados del vector aleatorloy, normal con vector de medias 0 y matriz de covarianzas. = A' "A Si x posee una distribuciOn normal multivaniada, el mejor predictor de y es: z = (Ak )(A'k. Ak )'y. 151. que es un vector aleatonio normal, con vector de medias 0 y matriz de covarianzas = 2 Ak (A'k 2 AYA'k NOtese que 2 es una matriz singular pxp. Las transformaciones de reducciOn de dimensionahdad 141 y [51 producen pérdida de informaciOn al transformar x € R a un vector de dimensiOn menor. La diferenci entrey es una medida de dicha pérdida. X. Las propiedades deseables de las transformaciones de reducciOn de dimensionalidad pueden ser analizadas como criterios de optimizaciOn en Ia selecciOn de Ia matriz Ak en [41, el enfoque de componentes pnincipalesproporciona Ia soluciOn Optima, es decir, Ak = Gk , donde Ia matriz.

(5) ARGUELLES C. JH. SelecciOn de variables en cebada estä constituida por los eigenvectores asoci&los a las primeras k componentes principales correspondientes a los k eigenvalores más grandes de E, Ia matriz de varianzas y covarianzas de x. En Ia mayor parte de los textos de teoria multivariada, los CP son presentados como combinaciones lineales ortogonales de las variables originales sujetas a restricciones. Existen muchas otras propiedades Optimas que implican una maximizaciOn o minimizaciOn de matrices oriogonales del tipo Ak, las que son usadas, como en 141, para valores fijos de k. Una soluciOn para aquehas es Ak = G ,, es decir, componentes principales. McCabe (10), de acuerdo con las propiedades Optimas de los CP, planteadas por Okamoto (11) y Kshirsagar (9) entre otros autores, propone una serie de criterios para selecciOn de variables. Estos criterios parten de las siguientes suposiciones. Si se consideran todas las posibles particiones (x1, x2), del vector aleatorio x, donde x, es el vector de las k variables retenidas y x2 es el vector de las p - k variables descartadas, eritonces ha matriz de varianzas y covarianzas f se particionará en Ia forma siguiente:. -. r. 11. 12. H21. 22. L. donde Elles Ia matriz kxk de covarianzas de x,. 22 es Ia matriz (p - k) de covarianzas de x2 y = E 21 es Ia matriz de covarianzas kx(p - k) entre x1 El problerna de seleccionar k variables es equivalente a obtener una matriz Ellde tamaño kxk entre las (ok) alternativas posibles. Cuando dichos criterios son aphicados en un subgrupo de variables, pueden tenerse diferentes grupos de estas como soluciones Optimas. Cada criterio es entonces equivalente a uno de los siguientes: rnin11221j = minfl PA. min Tr () = min E min 11 E22 12 = mm max E. p21. 0.. Donde E22.1 = ( 22 - 21' 11'12 es Ia matriz de covarianzas condicionadas de las variables rechazadas dadas las seleccionadas y 0. (1 = 1, 2, p-k), sus correspond ientes eigenvalores. Ademäs p21 corresponde al cuadrado de las correlaciones canOnicas entre las variables seleccionadas (k) y las rechazadas (p-k). El maximo y los minimos se obtienen sobre todos los posibles (ok) grupcs de variables seleccionadas. La selecciOn del criterlo a utilizar depende de los objetivos del investigador. La dificultad de los procesos corn putacionales, es otro aspecto a tener en cuenta en dicha selecciOn. Finalmente, es importante destacar que McCabe (10) plantea Ia forma de obtener Ia variaciOn exphicada por un subgrupo de variables seleccionadas (V), dentro del contexto del ACP. V = 1 -(E. O./ E. y. [6]. donde 0 1 son ios eigenvalores de Ia matriz de covarianzas condicionadas, de las variables rechazadas dadas las seleccionadas (E22 1)' Con el propOsito de evaluar y comparar los diferentes métodos para selecciOn de variables presentados en ha SecciOn anterior, se utihizO un corijunto de datos provenientes de Ia evaluaciOn de un germoplasma de cebada (Ilordeu,n vulgare L.), realizada por Arguelles et al (2) dentro del prograrna de Mejorarniento Genético de ha Facultad de AgronomIa de Ia Universidad Nacional de Colombia. Uno de los objetivos de esta evaluaciOn, lue Seleccionar las variables, tanto agronOmicas como fisioiOgicas, que más afectan el rendimiento de grano. Con dicha selecciOn se tratO de dar pautas a los mejoradores para una mejor orientaciOn de sus trabajos de investigaciOn. Se obtuvo un modelo de regresiOn con el procedimiento STEPWISE de SAS, que relacionO al rendirniento (REN) con las variables independientes nUrnero de granos por espiga (NGE), nUmero de espigas por planta (NEP), peso de 1000 granos (PMG), relaciOn granc/paja (RGP) y altura de planta (ALP). La regresiOn estimada fue: REN = -24.878 + 0.158 NGE + 1.056 NEP + 0.178 PMG + 6.778 RGP + 0.094 ALP 17 con coeficiente de determinaciOn R2 = 0.77. 359.

(6) RE VISTA ICA, VOL. 25 - OCTU lIRE - DICIEM lIRE 1990 El conjunto de datos utilizado, generO una matriz de datos 63 x 11(63 genotipas y 11 variables). Las 11 variables consideradas fueron las siguientes: NGE = NOmero de granos por espiga NEP = NUmero de espigas por planta PMG = Peso de mil granos (gm) RGP = RelaciOn grano/paja ALP = Altura de planta (cm) PBU = Peso Bushell (Ib) PUN = Puntaj (gm) LOE = Longitud de espiga (cm) NUM = NUmero de macalias PSP = Peso seco por planta (gm) LOA = Longitud de arista (cm). NGE NEP PMG RGP ALP PBU PUN LOE NUM PSP. Con base en Ia matriz de correlaciones lineales simples entre las 11 variables originales (Tabla se efectuaron los diferentes ACP requeridos en cada una de las metodologlas (Bi, B2, B3 y B4) propuestas por Jolliffe (5, 6) para selecciOn de variables que fueron presentadas en Ia SecciOn anterior. Para realizar dicho análisis se utilizO el paquete estadistico SAS. Resultados obtenidos con el Método Bi de Jolliffe. La variable REN no fue consideracla en este estudio, ya que Ia selecciOn se centrO en las variables independientes que afectan directa o indirectamente al rendimiento de grano, TABLA 1.. RESULTADOS V DISCUSION. En Ia evaluaciOn del Método Bi fue necesario ejecutar un total de tres ACP, hasta obtener unicamente elgenvalores mayores que X = 0.70. Las variables retenidas en el Ultimo Ac?P (Tabla fueron PMG, RGP y NUM, mismas que expli-. Matriz de correlaciones simples entre las 11 variables originales (Arguelles et al, 1982). NEP. PMG. RGP. ALP. PBU. PUN. LOE. NUM. PSP. LOA. -.36. -.43 .23. .25 -.08 .09. .44 -.11 .22 -.08. -.07 .25 .49 .24 .14. -.22 .25 .76 .21 .29 .62. .13 .27 .30 -.06 .31 .01 .25. -.34 .53 .25 .02 -.12 .19 .14 .17. .22 .01 .33 .00 .69 .12 .36 .28 .15. -.10 .17 .29 -.18 .13 .08 .21 .53 .03 .28. TASLA 2. Eigenvalores y eigenvectores de Ia matriz de correlaciones para el tercero y Ultimo ACP (Método Bi de Jolliffe).. COM1 COM2 COM3. Eigenvalor. Diferencia. ProporciOn. 1.271 0.987 0.741. 0.284 0.246. 0.424 0.329 0.247. Varianza acumulada (%) 42.2 75.3 100.0. Elgenvectores. PMG RGP NUM. (. 360. ): Elgenvalor correspondiente.. EIG1 (1.271). EIG2 (.987). EIG3 (.741). 0.698 0.286 0.657. -0.055 0.936 -0.349. -0.714 0.208 0.668.

(7) ARGUELLES C. JH. Seleccjón de variables en cebacla caron el 45.0% de Ia varianza total estandarizada. Dicho porcentaje tue obtenido con base en el criterio del porcentaje de variaciOn explicada (V) propuesto por McCabe (10) [6]. De las tres variables seleccionadas mediante el Método Bi de Jolliffe, sOlo dos (PMG y RGP) fueron incluidas en el modelo de regresiOn [7]. NOtese que Ia variabilidad acumulada por las tres variables seleccionadas es sOlo el 45.0% de Ia varianza total estandarizada (61, porcentaje similar al acumulado por las dos primeras componentes principales basadas en Ia matriz de correlaciones (Tabla 3).. Las cinco variables seleccionadas mediante el MOtodo B2 de Jolliffe (PMG, RGP, ALP, LOE y NUM), representan caracterIsticas que tienen que ver con los componentes del rendimiento (PMG y RGP) y con el vigor vegetativo (ALP, LOE y NUM), las cuales juegan un papel importante dentro de los programas de mejoramiento genético de Ia cebada. Como se observa, el Método B2 preservO un mayor porcentaje de Ia variabilidad original que el Método Bi, ya que el primero (132) sOlo requiere de un ACP para realizar Ia selecciOn definitiva de variables, mientras que el segundo (Bi) requiere de tantos ACP como sean necesarios hasta obtener todos los Xe,> 0.70. Resultados obtenidos con el Método B3 de Jolliffe. Resultados obtenidos con el Método B2 de Jolliffe Para el método B2 de Jolliffe, que es sOlo el primer paso del método Bi, se obtuvieron k = 5 eigenvalores mayores que X. = 0.70, lo que condujo a considerar los Ultimos p - k = 6 eigenvectores con el propOsito de descartar las variables correspondientes (Tablas 3 y 4). Las cinco variables retenidas fueron PMG, RGP, ALP, LOE y NUM, que acumularon el 71.0% dela varianza total estandarizada. Dicho porcentaje fue obtenido de acuerdo con Ia ecuaciOn [61 planteada por McCabe (10), y tue similar al alcanzado por las primeras cuatro CP. NOtese que las variables PMG (Peso de 1000 granos), RGP (RelaciOn grano/paja) y ALP (Altura de planta), fueron incluidas en el modelo de regresiOn [7].. El mOtodo 63 pane del ACP inicial realizado en los Métodos Bi y B2, por lo que se consideraron de nuevo las Ultimas p - k = 6 componentes con el propOsito de obtener Ia suma de cuadrados de los coeficientes para cada variable. Las primeras cinco componentes preservaran el 81.1% de Ia varianza total (Tabla 3). Las sumas de cuadrados de los coeficientes para cada variable correspondientes a las Ultimas p - k componentes, se obtuvieron con base a Ia ecuaciOn: p. SOC = (11. j-k+l. dondei = 1, 2, ...,p,ygeseli-ésimocoe. ficiente del eigenvector j - ésimo.. TABLA 3. Elgenvalores y varianza acumulada de Ia matriz de correiacones para el primer ACP (Métodos Bi, 82, 83 y B4 de Jolliffe).. COM1 COM2 COM3 COM4 COM5 COM6 COM7 COM8 COM9 COM10 COM11. Eigenvalor. Diterencia. Proporción. Varlanza acumulada (%). 3.190 2.166 1.582 1.047 0.942 0.654 0.504 0.394 0.219 0.162 0.140. 1.023 0.585 0.534 0.105 0.289 0.150 0.110 0.176 0.057 0.021. 0.290 0.197 0,144 0.095 0.086 0.059 0.046 0.036 0.020 0.015 0.013. 29.0 4.8.7 63.1 72.6 81.1 87.1 91.7 95.3 97.3 98.7 100.0. -. 361.

(8) RE VISTA ICA, VOL. 25 - OCTUBRE - DICIEMBRE 1990 TABLA 4. EigenvecLores de Ia matriz de correlaciones para el primer ACP (Métodos Bi, 62, B3 y B4 de JoIlIfte).. NGE NEP PMG RGP ALP PBU PUN LOE NUM PSP LOA. NGE NEP PMG RGP ALP PBU PUN LOE NUM PSP LOA. Variables descartadas. EIG1 (3.190). EIG2 (2.166). EIG3 (1.591). EIG4 (1.047). EIG5 (.942). EIG6 (.654). -0.141 0.268 0.465 0.040 0.230 0.338 0.460 0.297 0.234 0.311 0.271. 0.537 -0.348 -0.093 0.051 0.523 -0.078 -0.007 0.174 -0.327 0.393 0.085. 0.109 -0.204 0.141 0.549 -0.026 0.424 0.290 -0.397 -0.124 -0.079 -0.427. 0.370 0.404 -0.306 0.383 0.033 -0.016 -0.204 0.192 0.562 0.112 -0.226. 0.172 -0.037 -0.019 0.461 -0.348 0.045 0.026 0.443 -0.268 -0.381 0.467. 0.283 0.400 -0.259 -0.416 0.140 0.577' 0.020 -0.0013 -0.257 -0.315 -0.017. EIG7 (.504). EIG8 (.394). EIG9. EIG1O. (.219). (.162). EIG11 (.140). 0.032 -0.115 -0.226 0.062 -0.172 0.325 -0.207 -0.494 0.188 0.328 0.605. -0.135 0.619' -0.127 0.260 0.041 -0.331 0.139 -0.276 -0.488 0.251 0.077. -0.185 0.112 0.376 0.237 0.501 0.088 -0.634 -0.096 -0.044 -0.268 0.106. -0.055 -0.087 -0.302 0.077 0.406 -0.247 0.441 -0.223 0.284 -0.468' 0.265. 0.613' 0.153 0.543 -0.169 -0.177 -0.284 0.057 -0.332 0.112 -0.158 0.118. (. ) Eigenvalor correspondiente. De acuerdo con Ia Tabla 5 las variables retenidas, RGP, NUM, LOA, LOE y NGE, presentaron las sumas de cuadrados mäs bajas de los coeficientes en las ültimas seis componentes, y acumularon el 59.7% de Ia varianza totaL El anterior porcentaje se obtuvo con base en Ia ecuaciOn [6].. TABLA 5. Suma de cuadrados de los coeficientes para las 11 variables originales, en los UItimos p-k componentes.. Variables. Obsérvese que las variables RGP (RelaciOn grano/paja), LOE (Longitud de espiga) y NUM (NUmero de macollas), fueron tambiOn seleccionadas por el Método B2, mientras que RGP y NUM fueron comunes a los tres métodos. Además, sOlo dos de las variables seleccionads (NGE y RGP) fueron incluidas en el modelo de regresiOn obtenido previamente. El porcentaje de variac;On explicado por las cinco variables retenidas (59.7%) [6], fue similar al acumulado por las primeras tres CP, obtenidas de Ia matriz de correlaciones lineales simpIes (Tabla 3).. 362. RGP NUM LOA LOE NGE ALP PSP NEP PMG PUN PBU * Variables seleccionadas S.C. Suma de cuadrados. S.C. de coeficientes. 0.3353 0.4348 0.4675 0.4901 0.5131 0.5507 0.5856 0.6003 0.6617 0.6626 0.6981.

(9) ARGUE LLES C. JH. Selecciôn de variables en cebada Resultados obtenidos con el Método B4 de Jolliffe El punto inicial del Método 84 fue un ACP sobre las p = 11 variables originaTes, de donde se seleccionaron las primeras cinco componentes correspondientes a los cinco eigenvalores mayores que X0 = 0.70; dichas componentes explicaron el 81.1% de Ia variaciOn total (Tabla 3). Las variables que presentaron los coeflcientes mayores en cada uno de los componentes considerados, fueron NGE, PMG, RGP, NUM y LOA, con valores de 0.537 para NGE, 0.465 para PMG, 0.549 para RGP, 0.562 para NUM y 0.467 para LOA en los elgenvectores 2, 1, 3, 4 y 5 respectivamente, dichas variables fueron seleccionadas. La varianza acumulada por estas cinco variables retenidas, correspondiO al 68.3% del total de Ia varianza estandarizada de X. Nuevamente Ia diferencia entre estos dos ültimos porcentajes (12..8%), corresponde ala variaciOn aportada por las variables descartadas a las primeras cinco componentes. Tres de las variables seleccionadas mediante el Método B4 de Jolliffe (NGE, PMG y RGP), fueron incluidas en el modelo de regresiOn [7]. Resultados obtenidos con los Criterios propuestos por McCabe Con elfin de evaluar los cuatro criterios de selecciOn de variables propuestos por McCabe (10), se partlO de las matrices de covarianzas. (S) y de correlaciones (R) entre las 11 variables originales. Para realizar dichos análisis, fue necesario realizar un programa en lenguaje MATRIX de SAS. Con el fin de tener un criterio para comparar los siguientes cuatro criterios de selecciOn de variables, se tomO un valor arbitrarlo de Ia variaciOn explicada de aproximadamente 90%. Selección de Variables de acuerdo con el Criterio de Minimización de Is221 Como se puede observar en Ia Tabla 6, las variables 1 (NGE), 5 (ALP) y 7 (PUN) explican el 91.2% de Ia varianza total (Traza (S)) [6]. Este porcentaje, equivale aproximadamente al acumulado por las tres primeras CP (92.4%) con base en Ia matriz de covarianzas. Las variables 2 (NEP), 3 (PMG), 4 (RGP), 6 (PBU), 8 (LOE), 9 (NUM), 10 (PSP), y 11 (LOA) explicaron el 8.8% de Ia varianza restante. Al comparar Ia varianza explicada por las tres variables seleccionadas, con Ia acumulada por las tres primeras CP, se pudo evidenciar que para este caso, no existiO mayor pérdida de informaciOn al emplear esta técnica de selecciOn. Al utilizar Ia matriz de correlaciones condicionadas (R22 )' se encontraron resultados diferentes, ya que los grupos de k variables seleccionadas no coincidieron con los obtenidos en el caso anterior (Tabla 6). Esto debido bsicamente a Ia estandarizaciOn de las variables onginales.. TABLA 6. Variables seleccionadas y varianza explicada por los diterentes métodos de selecclón de variables Método. Variables seleccionadas. Bi B2 B3 B4. PMG RGP NUM PMG RGP ALP LOE NUM RGP NUM LOA LOE NGE NGE PMG RGP NUM LOA. 45.0 71.0 59.7 68.3. 2 4 3 4. min s mm Tr(S) 22' min s22.1 2. NGE ALP PUN NGE ALP PUN NGE ALP PUN. 91.2. 91.2 91.2. 3 3 3. min R 22 I min Tr(R22.1)2 mmn R22.1. NGE NEP NEP NEP. 90.3 90.7 90.7 90.7. 7 7 7 7. max. m. 2. NEP PMG PMG PMG. RGP ALP RGP RGP. PBU PBU ALP ALP. LOE NUM PSP LOA+ LOE NUM LOA PBU LOE NUM LOA PBU LOE NUM LOA. Varlanza explicada (%). CP. NUmero de componentes principales necesarios para explicar el mismo porcentaje de Ia variación total. 363.

(10) RE VISTA ICA, VOL. 25 - OCTUBRE - DICIEMBRE 1990 En este caso las variables 1 (NGE), 2 (NEP), 4 (RGP), 6 (PBU), 8 (LOE), 9 (NUM), 10 (PSP) y 11 (LOA) representaron el 90.3% de Ia varianza total estandarizada, proporciOn aproximadamente igual a Ia obtenida por las primeras siete CP (91.7%), correspondientes a Ia matriz de correlaciOn (Tabla 6). Las variables 3 (PMG), 5 (ALP) y 7 (PUN), sOlo participaron del 9.7% de Ia varianza total estandarizada. Al comparar los resultados obtenidos utilizando este criterio, se advirtlO Ia diferencia en el nOmero y en las variables seleccionadas al usar Ia matriz R 1 en lugar de S221. AsI por ejemplo, las variables 5 (ALP) y 7 (PUN), que contribuyeron con el 50.3% de Ia variaciOn total al emplear en el criterio de selecciOn, fueron descartadas cuando se considerO Ia matriz Rn ,. La variable 1 (NGE) que tuvo Ia maxima varianza (271.28) fue seleccionada en ambos casos. Aunque se parta de Ia matriz de correlaciones condicionadas (R22 )' sigue siendo obvia Ia yentaja del método de selecciOn sobre el ACP con todas las variables, ya que para este caso sOlo se necesitaron ocho variables para igualar Ia variaciOn explicada por las primeras siete CP.. Selección de variables de acuerdo con el Criteria de Minimizaciôn de Ia Tr (S 1) Al utilizar el criterio de minimizaciOn de Ia traza de Ia matriz de covarianzas de las variables rechazadas dadas las seleccionadas (S22 ), Ia situaciOn no cambiO con respecto al criterio evaluado anteriormente (min S221 ), ya que las variables obtenidas en los diferentes grupos de tamano k, fueron las mismas. Nuevamente las variables 1 (NGE) 5 (ALP) y7 (PUN) participaron del 91.2% de Ia varianza total (Tabla 6), porcentaje que como ya se anotO, fue alcanzado por las tres primeras CP de Ia matriz de covarianzas. Este criterio mostrO las mismas ventajas del criterio basado en S221 con respecto at ACP, ya que Ia pOrdida de váriabilidad explicada al considerar las tres variables seleccionadas, sOlo fue del i .2% con respecto a Ia acumulada por las tres primeras componentes. Cuando se utilizO Ia matriz de correlaciones condicionadas (R22 ), las variables 2 (NEP), 3 (PMG), 4 (RGP), 5 (ALP), 6 (PBU), 8 (LOE), 9 364. (NUM) y 11 (LOA), acumularon el 90.7% de lavarianza total estandarizada, praporciOn aue fue alcanzada por las primeras siete CP de Ia matriz de correlaciones (Tabla 6). Es necesarlo hacer notar que existlO poca coincidencia en las variables seleccionadas y en Ia variaciOn explicada por éstas, para los diferentes grupos de tamano k con respecto a 10 obtenido 'con el Método del Mmnimo R221 El caso contrario sucedlO al utilizar Ia matriz de covarianzas, donde los resultados fueron identicos para estos dos criterios. La pérdida de variabilidad explicada al considerar las ocho variables seleccionadas, sOlo fue de 1.0% con respecto a Ia alcanzada por las primeras siete CP, basadas en Ia matriz de correlaciones.. Selecciôn de Variables de acuerdo con el Criteria de Minimización de Ia Norma Cuadrada de S221 Al emplear el criterio de minimizaciOn de Ia norma cuadrada de Ia matriz S221, se encontrO que las variables i (NGE), 5 (ALP) y 7 (PUN), alcanzaron el 91 2% de Ia varianza total, porcentaje que coma se ha visto anteriormente, fue obtenido por las primeras tres CP basadas en Ia matriz de covarianzas (92.4%). Los diferentes grupos de variables de tamano k obtenidos baja este criterio, coincidieron en las variables seleccionadas, con los grupos generados por los criterias de minimizaciOn del determinante y Ia traza de S 21. Cuando Ia matriz R 1 fue considerada, las variables 2 (NEP), 3 (PMG), 4 (RGP), 5 (ALP), 6 (PBU), 8 (LOE, 9 (NUM) y 11 (LOA) sumaron el 88.3% de Ia varianza total estandarizada, porcentaje que tue alcanzado por las primeras siete CP basadas en Ia matriz de correlaciones (Tabla 6).. SelecciOn de Variables de acuerdo con el Criterio de Maximización de Ia Suma de Cuadrados de las Correlaciones CanOnicas Al utilizar el criterio de maximizaciOn de Ia suma de cuadrados de Ia correlaciOn canOnica entre las variables seleccionadas y las descartadas, se en-.

(11) AflGUELLES C. ill. Selección de variables en cebacla GrayblIl, F.A. 1983. Matrices with application in statistics. Ed. Duxbury Press. Belmont (Cal). EUA.. contrO que para preservar el 90.7% de Ia variadOn total, fue necesarlo retener las variables 2 (NEP), 3 (PMG), 4 (RGP), 5 (ALP), 6 (PBU), 8 (LOE), 9 (NUM) y 11 (LOA) Tabla 6. Dictio porcentaje fue explicado por las primeras siete CP.. JollItfe, I.T. 1972. Discarding variables in a principal components analysis I Artificial data Applied Statistics. Statistics. Journal of the Royal Stabstical Society, Ser. C. 21:160-173.. En general, ninguno de los grupos de tamaño k obtenidos, coincidieron con los grupos seleccionados mediante los otros criterios, aunque los porcentajes de variaciOn explicada, son muy similares a los grupos de variables provenientes de selecciones realizadas con base en Ia matriz de correlaciones. Corno las correlaciones canOnicas se obtuvieron de Ia matriz Rxx* Rxy' * Ryy * Rxy (variables estandarizadas), sOlo es posible Ia cornparaciOn con los resultados obtenidos mediante criterios basados en R20 ,.. Jolliffe, I.T. 1973. Discarding variables in a principal components anaysisi II Real data. Applied Statistics, Journal of the Royal Statistical Society, Ser. 22:21.31. Krzanowskl, W.J. 1 987a. Selection of variables to preserve multivariate data structure, using principal components. Applied Statistics. 36(1):22-33. Krzanowskl, W.J. 1987b. Cross validation in principal component analysisi. Biometrics. 43:575584. Kshirsagar, A.M. 1972. Multivariate analysis. Ed. Marcel Dekker, Inc. New York. EUA.. REFERENCIAS BIBLIOGRAFICAS 1.. ArgUelles, J.H., W.; Guevara P.; N. Cârdenas M. 1982. Caracterizaciôn fisiolOgica y evaluaciOn agronômica de un germoplasma ae cebada resistente a Ia Roya Arnarilla (Puccrnia striiformis f. sp. hordei) para SelecciOn de progenitores. Tesis Profesional. Universidad Nacional de Colombia. 3.. McCabe, G.P. 1984, Principal variables. Technometrics. 26(2): 137-144.. Anderson, T.W. 1984. An Introduction to multivariate statistical analysis. Secon Edition. John Wiley & Sons. New York. EUA.. Eastment, H.T.; Krzanowskl, W.J. 1982. Grossvalidatory choice of the number of components from a principal component analysis Techrometrics. 24(1 ):73-77.. ii.. Okamoto, M. 969. Optimality of principal components. Multivariato analysis Il. Ed. P.R. Krishnaiah. Academic Press. New York. EUA.. In:. Rae, C.R. 1973. Linear statistical inference and its applications. Second Edition. John Wiley & Sons. New York. EUA. Seber, G.A.F. Multivariateobservatiorls. Ed. John Wiley & Sons. New York. EUA.. PublicaciOn del ICA Cóaigo: 00-2.1-04-90 EdiciOn: Fernando Pardo E. ImpresiOn: Ejemplares:. 1100. 365.

(12)

Figure

Actualización...

Referencias

Actualización...