Reducción de Parámetros - EXTRACCI ´ ON DE CARACTERÍSTICAS

3. EXTRACCI ´ ON DE CARACTER´ISTICAS

4.4. Reducci´on de Par´ametros

La entrop´ıa relativa para una variable aleatoria, j, discreta se define como:

DKL(Ω1||Ω2) = X j Ω1(j) log Ω1(j) Ω2(j) (4.7)

4.4. Reducci´on de Par´ametros

Existen multitud de técnicas para reducir la dimensionalidad de un conjunto de datos determinado, tales como análisis de componentes principales, análisis de componentes independientes, análisis de correspondencias, análisis discriminante lineal, análisis factorial, análisis multidimensional, análisis de regresión y análisis de varianza, entre otros. Sin embargo, en este trabajo, tan solo se describen aquellos que se han utilizado.

4.4.1. Principal component analysis (PCA)

La técnica de análisis de componentes principales es una de las más utilizadas en lo que a reducción de dimensionalidad se refiere. Según [21] existen dos definiciones aceptadas. La primera ofrecida por Karl Pearson en 1901, la cual define PCA como la proyección lineal que minimiza el coste de proyección media, definida como la distancia al cuadrado media entre los puntos de datos y sus proyecciones [138]. La segunda definición la enunció Hotelling en 1993 y es equivalente a la anterior defi- nición, es decir, PCA es la proyección ortogonal sobre un espacio lineal con menor número de dimensiones, conocido como, subespacio principal, tal que la varianza de los datos proyectados sea máxima [79].

Partiendo de la segunda definición de PCA,varianza máxima y aplicado a nues- tros datos a partir de la explicación del algoritmo recogido por Bishop en [21] pre- sentamos la siguiente definición para PCA basado en los datos espec´ıficos del corpus 2:

Teniendo unos conjuntos de datos definidos comoXm yXf para los grupos mas-

culino y femenino respectivamente, dondem y f son el n´umero de sujetos por cada conjunto de datos, donde cada xm y xf corresponde a un vector fila que posee J

parámetros o dicho de otra forma posee J dimensiones. La idea fundamental de este algoritmo es obtener un subespacio donde el número de dimensiones o paráme- tros, Z, sea menor, Z < J. Las componentes principales no presentan correlación alguna y se obtienen en orden decreciente de relevancia. Por consiguiente, la primera componente principal es aquella que conserva la mayor cantidad de información significativa de los datos, la segunda componente principal recoge el resto de la in- formación más relevante y as´ı sucesivamente.

Esta técnica busca la combinación lineal de las variables que maximiza la varianza entre ellas. En un primer paso se definirá la proyección sobre un espacio unidimensional o lo que es lo mismo J = 1. A continuación asignaremos v1, el cual

ser´a un vector unitario, por lo quev₁Tv1 = 1 (sin perdida de generalidad). Es impor-

tante recalcar que lo que se busca con este método es la dirección de este vector y no tanto su magnitud. Ahora cada xm o xf se proyectan sobre un valor del escalar v₁Txm o v1Txf, o en otras palabras, la combinación lineal del vector unitario sobre

cada variable de la matriz de origen. La media de los datos proyectados se denota comovT

1xm ovT1xf, esta media (x), se calcula como la suma de todos los valores de

la matriz original dividido entre el n´umero total de individuos. En adelante y para abreviar se utilizar´a solo el conjunto de datos femenino, aunque como en el resto de casos es directamente trasladable al conjunto de datos masculino.

En este punto se calculará la varianza proyectada según la expresión.

v₁TSv1 = 1 Nf Nf X nf=1 vT₁xf −vT1xf 2 (4.8) donde S es la matriz de covarianza, la cual se define como puede verse a continuaci´on. S = 1 Nf Nf X nf=1 (xf −x)(xf −x)T (4.9)

Seguidamente debemos maximizar la varianza proyectada, vT

1Sv1, respecto del

vector de coeficientes v1. Es necesario acotar la soluci´on y como tenemos infinitos

vectores de dirección, generamos una restricción de normalización, la cual se denota comovT

1v1 = 1 o dicho de otra forma que tenga norma 1. Para ello ser´a necesario uti-

lizar un multiplicador de Lagrange, el cual lo definiremos comoλ1. Por consiguiente

la varianza proyectada queda de la siguiente forma:

vT₁Sv1+λ1(1−vT1v1) (4.10)

Realizando la derivada parcial a la anterior ecuaci´on respecto a v1 e igualada a

cero, tendr´a un punto estacionario cuando Sv1 =λ1v1, donde λ es un valor propio

de la matriz de covarianzas yv el vector propio asociado. Adem´as, si multiplicamos a la izquierda por vT₁ y hacemos uso de la condici´on inicial v₁Tv1 = 1 la varianza se

ve reducida a:

v₁TSv1 =λ1 (4.11)

y por consiguiente se puede concluir que la varianza será máxima siempre y cuando asignemos al vector v1 el autovector con el autovalor λ1 más grande. Finalmente,

este vector propio se le conoce con el nombre de primera componente principal. Esta descripción para un espacio unidimensional se puede extrapolar a J componentes principales escogiendo nuevos vectores dirección, los cuales deben de hacer máxima la varianza proyectada entre todas las posibles direcciones ortogonales

que hayan sido consideradas. Si se considera el caso general del espacio de proyecci´on

J-dimensional, la proyección lineal óptima para la varianza de los datos proyectados será máxima si se define un autovector con los j-ésimas dimensiones o parámetros del tipov1, ..., vj de la matriz de covarianza S correspondiente a los autovalores más

4.4. REDUCCI ´ON DE PAR ´AMETROS grandesλ1, ..., λj.

Dejando a un lado la explicación matemática del método, se puede explicar la reducción de parámetros PCA como el proceso iterativo que evaluá con cada uno de los parámetros del conjunto dado (J=72), si el residual calculado a partir de la varianza acumulada es menor que un umbral dado. Si la condición anterior se cumple, la iteración se detiene, en caso contrario se pasa al siguiente parámetro y se vuelve a ejecutar el proceso. PCA y otros métodos derivados de esta técnica han sido ampliamente utilizados en trabajos de clasificación tales como [105], [104] y [170].

4.4.2. Independent component analysis (ICA)

La diferencia fundamental entre PCA e ICA es que la primera busca correlación entre sus variables o lo que es lo mismo la máxima varianza, mientras que la segunda busca máxima independencia estad´ıstica. PCA intenta reconstruir un subespacio más pequeño que el inicial pero con el mayor contenido de significado. Sin embargo, la técnica ICA, tan solo busca la máxima independencia en su nuevo subespacio vectorial o dicho de otra forma, intenta encontrar la combinación lineal del conjunto de caracter´ısticas inicial en un nuevo subespacio de caracter´ısticas, donde estas sean mutuamente independientes (que su información mutua sea nula). Esta técnica se ha utilizado en multitud de áreas y trabajos, como por ejemplo [3], [85], [86], [114] y [177].

Siendo un poco m´as estrictos, tal y como se define en [81], [82] y [84], ICA se basa en un modelo estad´ıstico de “variables latentes”. El concepto latente hace referencia a que existen variables (que ser´an las componentes independientes (ICs)) que no han sido directamente observadas o estimadas, o dicho de otra forma, que son desconocidas a priori. Por consiguiente, teniendo n variables aleatorias observadas

x1, x2, ..., xn, las cuales pueden ser modeladas como combinaci´on lineal denvariables

aleatorias s1, s2, ..., sn, el modelo queda definido por la siguiente ecuaci´on:

xi =ai1s1+ai2s2+...+ainsn, para todo i= 1, ..., n (4.12)

dondeaij, i, j = 1, ..., nson los coeficientes de la mezcla ysi son lo que se conocen

como componentes independientes. Hay que tener en cuenta que, por definici´on, las variables aleatoriassi son mutuamente independientes estad´ısticamente hablando.

Siguiendo la definición estricta anterior se puede decir que, a partir de una matriz de muestras de observación xi (en nuestro caso será xf y xm para el conjunto de

hombres y mujeres) debemos de ser capaces de estimar una serie de coeficientes denotados por aij y de obtener componentes independientes si. Para llegar a esta

combinaci´on lineal es necesario cumplir una serie de restricciones.

1. Las ICs se consideran estad´ısticamente independientes. Dicho en otras palabras que la informaci´on mutua entre cada una de las componentes es igual a cero. 2. Las componentes independientes deben de tener distribuciones no gaussianas.

3. Por simplicidad, se asume que la matriz de mezcla es cuadrada, es decir, que se deben estimar tantas componentes independientes como variables observadas. ICA es una técnica que está ´ıntimamente relacionada con el método conocido como“separación ciega de fuentes”. Normalmente, la ecuación 4.12 suele presentarse en forma matricial por comodidad, quedando:

x=As (4.13)

donde x hace referencia al conjunto de datos femeninos o al conjunto de datos masculinosxf o xm, respectivamente, los cuales son los vectores de muestras obser-

vadas, A es la matriz de coeficientes de mezcladoaij, los cuales toman un conjunto

de valores que garanticen que la matriz A sea invertible y si es el vector aleato-

rio de variables ocultas o componentes independientes. Por consiguiente, se puede asumir que existe una matriz W con coeficientes wij que nos permite obtener las

componentes independientes denotados comosi, quedando:

si =wi1x1+si2w2+...+sinwn, para todo i= 1, ..., n (4.14)

o en forma matricial:

s=W x (4.15)

Existe una implementación de este algoritmo llamado FastICA, el cual ofrece resultados más rápidamente que otros métodos, como se puede ver en [59]. Esta mo- dificación se cimienta en algoritmos adaptativos basados en descenso por gradiente. La convergencia es normalmente baja, y depende de la elección de los parámetros. Algunos trabajos que utilizan esta técnica se pueden encontrar en [80] y [83].

4.4.3. Partial Least Squares (PLS)

Tal y como se define en [155], la idea que subyace en todos los métodos PLS es que el conjunto de datos observados se ha obtenido a partir de un conjunto de variables desconocidas o que no hayan sido observadas directamente, las cuales re- ciben el nombre de variables latentes. El algoritmo PLS por el cual las estructuras latentes proyectadas dan como resultado los datos observados fue desarrollado por Herman Wold [201]. En términos generales, PLS genera vectores ortogonales de puntuación (vectores latentes) gracias a la maximización de la covarianza entre dife- rentes conjuntos de variables. PLS se basa en dos matrices, una de predicción y otra de respuestas. Existen varios métodos conocidos para PLS, todos ellos dependen del número de variables de respuesta que utilicen, es decir, PLS1 significa que tiene una variable de respuesta, mientras que PLS2, tiene dos. Los métodos PLS se puede utilizar de forma similar a como se procede con PCA, es decir, como herramienta para la reducción de dimensiones, aunque también tiene múltiples usos en diversas áreas, tales como quimiometr´ıa (área de Herman Wold), psicolog´ıa, bioinformática, medicina, etcétera. Además, existen trabajos que han utilizado la combinación PLS y SVM [156]. Por consiguiente, este método es una posible alternativa a la utiliza- ción de PCA.

In document Contribución al estudio de selección de parámetros para identificación de estrés en la voz (página 119-123)