• No se han encontrado resultados

3. EXTRACCI ´ ON DE CARACTER´ISTICAS

4.4. Reducci´on de Par´ametros

La entrop´ıa relativa para una variable aleatoria, j, discreta se define como:

DKL(Ω1||Ω2) = X j Ω1(j) log Ω1(j) Ω2(j) (4.7)

4.4.

Reducci´on de Par´ametros

Existen multitud de t´ecnicas para reducir la dimensionalidad de un conjunto de datos determinado, tales como an´alisis de componentes principales, an´alisis de componentes independientes, an´alisis de correspondencias, an´alisis discriminante li- neal, an´alisis factorial, an´alisis multidimensional, an´alisis de regresi´on y an´alisis de varianza, entre otros. Sin embargo, en este trabajo, tan solo se describen aquellos que se han utilizado.

4.4.1.

Principal component analysis (PCA)

La t´ecnica de an´alisis de componentes principales es una de las m´as utilizadas en lo que a reducci´on de dimensionalidad se refiere. Seg´un [21] existen dos definiciones aceptadas. La primera ofrecida por Karl Pearson en 1901, la cual define PCA como la proyecci´on lineal que minimiza el coste de proyecci´on media, definida como la distancia al cuadrado media entre los puntos de datos y sus proyecciones [138]. La segunda definici´on la enunci´o Hotelling en 1993 y es equivalente a la anterior defi- nici´on, es decir, PCA es la proyecci´on ortogonal sobre un espacio lineal con menor n´umero de dimensiones, conocido como, subespacio principal, tal que la varianza de los datos proyectados sea m´axima [79].

Partiendo de la segunda definici´on de PCA,varianza m´axima y aplicado a nues- tros datos a partir de la explicaci´on del algoritmo recogido por Bishop en [21] pre- sentamos la siguiente definici´on para PCA basado en los datos espec´ıficos del corpus 2:

Teniendo unos conjuntos de datos definidos comoXm yXf para los grupos mas-

culino y femenino respectivamente, dondem y f son el n´umero de sujetos por cada conjunto de datos, donde cada xm y xf corresponde a un vector fila que posee J

par´ametros o dicho de otra forma posee J dimensiones. La idea fundamental de este algoritmo es obtener un subespacio donde el n´umero de dimensiones o par´ame- tros, Z, sea menor, Z < J. Las componentes principales no presentan correlaci´on alguna y se obtienen en orden decreciente de relevancia. Por consiguiente, la prime- ra componente principal es aquella que conserva la mayor cantidad de informaci´on significativa de los datos, la segunda componente principal recoge el resto de la in- formaci´on m´as relevante y as´ı sucesivamente.

Esta t´ecnica busca la combinaci´on lineal de las variables que maximiza la va- rianza entre ellas. En un primer paso se definir´a la proyecci´on sobre un espacio unidimensional o lo que es lo mismo J = 1. A continuaci´on asignaremos v1, el cual

ser´a un vector unitario, por lo quev1Tv1 = 1 (sin perdida de generalidad). Es impor-

tante recalcar que lo que se busca con este m´etodo es la direcci´on de este vector y no tanto su magnitud. Ahora cada xm o xf se proyectan sobre un valor del escalar v1Txm o v1Txf, o en otras palabras, la combinaci´on lineal del vector unitario sobre

cada variable de la matriz de origen. La media de los datos proyectados se denota comovT

1xm ovT1xf, esta media (x), se calcula como la suma de todos los valores de

la matriz original dividido entre el n´umero total de individuos. En adelante y para abreviar se utilizar´a solo el conjunto de datos femenino, aunque como en el resto de casos es directamente trasladable al conjunto de datos masculino.

En este punto se calcular´a la varianza proyectada seg´un la expresi´on.

v1TSv1 = 1 Nf Nf X nf=1 vT1xf −vT1xf 2 (4.8) donde S es la matriz de covarianza, la cual se define como puede verse a conti- nuaci´on. S = 1 Nf Nf X nf=1 (xf −x)(xf −x)T (4.9)

Seguidamente debemos maximizar la varianza proyectada, vT

1Sv1, respecto del

vector de coeficientes v1. Es necesario acotar la soluci´on y como tenemos infinitos

vectores de direcci´on, generamos una restricci´on de normalizaci´on, la cual se denota comovT

1v1 = 1 o dicho de otra forma que tenga norma 1. Para ello ser´a necesario uti-

lizar un multiplicador de Lagrange, el cual lo definiremos comoλ1. Por consiguiente

la varianza proyectada queda de la siguiente forma:

vT1Sv1+λ1(1−vT1v1) (4.10)

Realizando la derivada parcial a la anterior ecuaci´on respecto a v1 e igualada a

cero, tendr´a un punto estacionario cuando Sv1 =λ1v1, donde λ es un valor propio

de la matriz de covarianzas yv el vector propio asociado. Adem´as, si multiplicamos a la izquierda por vT1 y hacemos uso de la condici´on inicial v1Tv1 = 1 la varianza se

ve reducida a:

v1TSv1 =λ1 (4.11)

y por consiguiente se puede concluir que la varianza ser´a m´axima siempre y cuando asignemos al vector v1 el autovector con el autovalor λ1 m´as grande. Finalmente,

este vector propio se le conoce con el nombre de primera componente principal. Esta descripci´on para un espacio unidimensional se puede extrapolar a J com- ponentes principales escogiendo nuevos vectores direcci´on, los cuales deben de hacer m´axima la varianza proyectada entre todas las posibles direcciones ortogonales

que hayan sido consideradas. Si se considera el caso general del espacio de proyecci´on

J-dimensional, la proyecci´on lineal ´optima para la varianza de los datos proyectados ser´a m´axima si se define un autovector con los j-´esimas dimensiones o par´ametros del tipov1, ..., vj de la matriz de covarianza S correspondiente a los autovalores m´as

4.4. REDUCCI ´ON DE PAR ´AMETROS grandesλ1, ..., λj.

Dejando a un lado la explicaci´on matem´atica del m´etodo, se puede explicar la reducci´on de par´ametros PCA como el proceso iterativo que evalu´a con cada uno de los par´ametros del conjunto dado (J=72), si el residual calculado a partir de la varianza acumulada es menor que un umbral dado. Si la condici´on anterior se cumple, la iteraci´on se detiene, en caso contrario se pasa al siguiente par´ametro y se vuelve a ejecutar el proceso. PCA y otros m´etodos derivados de esta t´ecnica han sido ampliamente utilizados en trabajos de clasificaci´on tales como [105], [104] y [170].

4.4.2.

Independent component analysis (ICA)

La diferencia fundamental entre PCA e ICA es que la primera busca correlaci´on entre sus variables o lo que es lo mismo la m´axima varianza, mientras que la segun- da busca m´axima independencia estad´ıstica. PCA intenta reconstruir un subespacio m´as peque˜no que el inicial pero con el mayor contenido de significado. Sin embargo, la t´ecnica ICA, tan solo busca la m´axima independencia en su nuevo subespacio vectorial o dicho de otra forma, intenta encontrar la combinaci´on lineal del conjunto de caracter´ısticas inicial en un nuevo subespacio de caracter´ısticas, donde estas sean mutuamente independientes (que su informaci´on mutua sea nula). Esta t´ecnica se ha utilizado en multitud de ´areas y trabajos, como por ejemplo [3], [85], [86], [114] y [177].

Siendo un poco m´as estrictos, tal y como se define en [81], [82] y [84], ICA se basa en un modelo estad´ıstico de “variables latentes”. El concepto latente hace referencia a que existen variables (que ser´an las componentes independientes (ICs)) que no han sido directamente observadas o estimadas, o dicho de otra forma, que son desconocidas a priori. Por consiguiente, teniendo n variables aleatorias observadas

x1, x2, ..., xn, las cuales pueden ser modeladas como combinaci´on lineal denvariables

aleatorias s1, s2, ..., sn, el modelo queda definido por la siguiente ecuaci´on:

xi =ai1s1+ai2s2+...+ainsn, para todo i= 1, ..., n (4.12)

dondeaij, i, j = 1, ..., nson los coeficientes de la mezcla ysi son lo que se conocen

como componentes independientes. Hay que tener en cuenta que, por definici´on, las variables aleatoriassi son mutuamente independientes estad´ısticamente hablando.

Siguiendo la definici´on estricta anterior se puede decir que, a partir de una matriz de muestras de observaci´on xi (en nuestro caso ser´a xf y xm para el conjunto de

hombres y mujeres) debemos de ser capaces de estimar una serie de coeficientes denotados por aij y de obtener componentes independientes si. Para llegar a esta

combinaci´on lineal es necesario cumplir una serie de restricciones.

1. Las ICs se consideran estad´ısticamente independientes. Dicho en otras palabras que la informaci´on mutua entre cada una de las componentes es igual a cero. 2. Las componentes independientes deben de tener distribuciones no gaussianas.

3. Por simplicidad, se asume que la matriz de mezcla es cuadrada, es decir, que se deben estimar tantas componentes independientes como variables observadas. ICA es una t´ecnica que est´a ´ıntimamente relacionada con el m´etodo conocido como“separaci´on ciega de fuentes”. Normalmente, la ecuaci´on 4.12 suele presentarse en forma matricial por comodidad, quedando:

x=As (4.13)

donde x hace referencia al conjunto de datos femeninos o al conjunto de datos masculinosxf o xm, respectivamente, los cuales son los vectores de muestras obser-

vadas, A es la matriz de coeficientes de mezcladoaij, los cuales toman un conjunto

de valores que garanticen que la matriz A sea invertible y si es el vector aleato-

rio de variables ocultas o componentes independientes. Por consiguiente, se puede asumir que existe una matriz W con coeficientes wij que nos permite obtener las

componentes independientes denotados comosi, quedando:

si =wi1x1+si2w2+...+sinwn, para todo i= 1, ..., n (4.14)

o en forma matricial:

s=W x (4.15)

Existe una implementaci´on de este algoritmo llamado FastICA, el cual ofrece resultados m´as r´apidamente que otros m´etodos, como se puede ver en [59]. Esta mo- dificaci´on se cimienta en algoritmos adaptativos basados en descenso por gradiente. La convergencia es normalmente baja, y depende de la elecci´on de los par´ametros. Algunos trabajos que utilizan esta t´ecnica se pueden encontrar en [80] y [83].

4.4.3.

Partial Least Squares (PLS)

Tal y como se define en [155], la idea que subyace en todos los m´etodos PLS es que el conjunto de datos observados se ha obtenido a partir de un conjunto de variables desconocidas o que no hayan sido observadas directamente, las cuales re- ciben el nombre de variables latentes. El algoritmo PLS por el cual las estructuras latentes proyectadas dan como resultado los datos observados fue desarrollado por Herman Wold [201]. En t´erminos generales, PLS genera vectores ortogonales de puntuaci´on (vectores latentes) gracias a la maximizaci´on de la covarianza entre dife- rentes conjuntos de variables. PLS se basa en dos matrices, una de predicci´on y otra de respuestas. Existen varios m´etodos conocidos para PLS, todos ellos dependen del n´umero de variables de respuesta que utilicen, es decir, PLS1 significa que tiene una variable de respuesta, mientras que PLS2, tiene dos. Los m´etodos PLS se puede utilizar de forma similar a como se procede con PCA, es decir, como herramienta para la reducci´on de dimensiones, aunque tambi´en tiene m´ultiples usos en diversas ´areas, tales como quimiometr´ıa (´area de Herman Wold), psicolog´ıa, bioinform´atica, medicina, etc´etera. Adem´as, existen trabajos que han utilizado la combinaci´on PLS y SVM [156]. Por consiguiente, este m´etodo es una posible alternativa a la utiliza- ci´on de PCA.