Algoritmos de Clasificaci´on - EXTRACCI ´ ON DE CARACTER´ISTICAS

3. EXTRACCI ´ ON DE CARACTER´ISTICAS

4.5. Algoritmos de Clasificaci´on

Considerando que PLS es un modelo que relaciona dos conjuntos de datos, donde

Xm o Xf ⊂ <J un espacio j-dimensional de variables que representan el primer

bloque, tambi´en llamado depredictores y de forma similar Ym oYf ⊂ <Z un espacio

que representa el segundo bloque de vectores o respuestas, donde la función que realiza PLS es modelar las relaciones entre estos dos conjuntos de datos mediante unos vectores latentes. Habiendo observadonindividuos de cada conjunto de datos, PLS genera una matriz de desviación o lo que es lo mismo una matriz con media igual a cero de tipo (n×J) para la matriz X, análogamente para la matriz Y de la forma (n×Z), quedando la siguiente combinación lineal:

X=TPT +E

Y=UQT ₊_F (4.16)

donde T y U son las matrices de proyección deXeY, respectivamente. Estas son de la forma (n×p) dondep son los vectores latentes extra´ıdos.P(J×p) yQ(Z×p) representan las matrices de carga ortogonal y E y F (n×J) son las matrices de residuos o de error. La finalidad de la descomposición deXeYes obtener la máxima covarianza deTyU. El método clásico PLS se basa en el algoritmononlinear partial least squares (NIPALS) [200], el cual estima unos vectores de pesos w, c tales que:

cov(t, u)2

= [cov(Xw, Y c)]2 =max|r|=|s|=1[cov(Xr, Y s)] 2

(4.17) dondecov(t, u) = tT_u/n_{denota la muestra de la covarianza entre el vector latente}

t y u. A continuaci´on se presenta el flujo del algoritmo NIPALS, el cual comienza con la inicializaci´on aleatoria del vector latente u perteneciente al espacio Y. El algoritmo no para de ejecutar hasta que finalmente converge:

1. w=XT_u/₍_uT_u₎ 2. ||w|| −→1 3. t =Xw 4. c=YT_/₍_tT_t₎ 5. ||c|| −→1 6. u=Y c

Obs´ervese que u = y si Z = 1, es decir, Y es un vector unidimensional que se denota comoy. En este supuesto NIPALS converger´ıa en la primera iteraci´on.

4.5. Algoritmos de Clasificaci´on

Como ya se comentó al inicio de este cap´ıtulo, existen muchos algoritmos de clasificación, por ejemplo, los modelos de mezclas gausianas (GMM), las redes neu- ronales artificiales (ANN), o las máquinas de vector de soporte (SVM), entre otros. Sin embargo, tan solo se describen en este apartado aquellos algoritmos que se han

escogido para clasificar el conjunto de datos. SVM, es idóneo para clasificar conjuntos dicotómicos de datos. Por otro lado, el ratio de máxima verosimilitud logar´ıtmica es la opción acertada cuando se quiere validar el comportamiento de un individuo sobre una población muestral.

4.5.1. Support Vector Machine (SVM)

El objetivo fundamental de las máquinas de vectores de soporte o SVM es definir un hiperplano que clasifique todos los vectores de datos en 2 clases, en nuestro caso particular, estrés y carencia de estrés [23] y [198]. Siendo más formales se podr´ıa decir que SVM construye una función del tipof :<n _{−→ ±}_{1 a partir de un conjunto}

de datos Xaf, Xdf, Xam, Xdm, siendo a acuerdo o estado neutro, d desacuerdo o

estado de estr´es, m representando a los hombres yf a las mujeres, que tendr´an un cardinalnaf onam ondf ondmy de unas etiquetas predefinidas con la clase a la que

pertenecen y que se denotar´an comoyi. Cada fila de la matriz del conjunto de datos

tendrá losJ parámetros extra´ıdos para cada uno de los individuos. Por consiguiente la ecuación que define nuestro problema inicial será para el conjunto masculino (o el femenino en su caso):

(xm1, ym1),(xm2, ym2), ...,(xmn, ymn)∈(<n× ±1) (4.18)

por lo tanto la funci´on, f, debe de ser capaz de clasificar correctamente nuevas muestras (xm, ym).

En nuestro caso tendremos (n×2)−1 muestras como matriz de entrenamiento o lo que es lo mismo (Xam+Xdm)−1, para el conjunto de datos masculino; mientras

que (Xaf+Xdf)−1 ser´a para el conjunto femenino, donde cada fila corresponder´a a

un vector de un individuo que tendr´aj caracter´ısticas o par´ametros. Cada individuo

xi tendrá una etiqueta asociada yi que equivaldrá al estado de estrés o carencia de

estr´es. Esta forma de entrenar el algoritmo se denomina leave-one-out, y ser´a co- mentada en detalle en el Cap´ıtulo 5, Resultados.

La f´ormula que define el hiperplano y trata de separar los datos etiquetados se denota como sigue:

g(x) = wTx+w0 (4.19)

dondew se conoce como elvector de pesos yw0 como elumbral. Este hiperplano

hace máxima la distancia entre ambas clases (denominado como el hiperplano de margen máximo). Este margen viene definido por la distancia entre el hiperplano y los elementos más cercanos respecto a él, donde se tiene en consideración la siguiente regla de decisión: wTx+w0 si > 0 si < 0 ⇒x∈ w1 corresponde con yi = +1 w2 corresponde con yi =−1 (4.20)

4.5. ALGORITMOS DE CLASIFICACI ´ON

Todos los puntos de entrenamiento se clasificar´an correctamente si:

yi(wTxi+w0)> b para todo i (4.21)

Por consiguiente, una posible soluci´on para que todos los puntos xi est´en a una

distancia mayor que b/|w| ser´ıa si para un b = 1 y sin p´erdida de generalidad gener´asemos dos hiperplanos del tipo H1 : wTx+w0 = +1 y H2 :wTx+w0 =−1.

Donde a estos planos se les denominanhiperplanos can´onicos que hacen ciertas las expresiones siguientes:

wTx+w0 ≥+1 para yi = +1 wTx+w0 ≤ −1 para yi =−1

(4.22) Llamamos margen total a la suma de los m´argenes obtenidos a partir de H1 y

H2. Estos m´argenes vienen definidos como h=

|g(x)| |w| =

|w|. La distancia entreH1 y

H2 y el hiperplano de separaci´on, A, la cual se define como margen que hace cierta

la ecuación,g(x) = 0. Por tanto, la maximización del margen es la búsqueda de una solución que minimiza |w| para la restricción, R1:

R1 :yi(wTxi+w0)≥1, donde i= 1, ..., n (4.23)

Por lo tanto, la forma de conseguir la máxima distancia es minimizando el módulo del vector de pesos, |w|. Para mininimizar el vector de pesos es necesario llevar a cabo una tarea de optimización no lineal, la cual se basa en las condiciones de

Karush-Kuhn-Tucker o (KKT) [93]. Para ello es necesario utilizar multiplicadores de Lagrangeλi, teniendo en cuenta una restricci´on adicionalPn_i₌₁λiyi = 0 y obteniendo

la ecuaci´on de vectores de soporte,w, mostrada en la siguiente ecuaci´on:

i=1

λiyixi (4.24)

SVM tiene una serie dekernels o funciones muy populares para generar el c´alcu- lo de los hiperplanos a partir de los conjuntos de entrenamiento. Por ejemplo en MatlabR podemos encontrar algunos de los siguientes:

Polinomial:

K(x1, x2) = xT1x2+ 1 ρ

(4.25) Funci´on de base radial:

K(x1, x2) = exp −kx1 −x2k 2 2σ2 (4.26) dondeρ es el orden del polinomio yσ es el ancho del kernel. Cuandoρadquiere los valores que a continuaci´on se presentan, el kernel de entrenamiento se convierte en:

ρ= 2 ⇒genera unkernel de tipo cuadrático, que es uno de los más utilizados. En la fase de test o clasificación, un SVM utiliza:

f(x) =X

αik(si, x) +b (4.27)

donde αi son los pesos, si son los vectores de soporte, b es el umbral y k es

el kernel utilizado. Obs´ervese que, si el kernel es lineal, k es el producto escalar. Entonces, si f(x) > 0, x ser´a clasificado como la primera clase, mientras que si

f(x)<0, x ser´a de la segunda clase.

4.5.2. Log-likelihood Ratio

Hemos implementado un algoritmo propio a partir del cual se obtiene unos indica- dores que validan el conjunto de datos, basándonos en la verosimilitud logar´ıtmica o log-likelihood [74]. Este método trata de comprobar si el sujeto i muestra con- gruencia en caso de defender su opinión sincera, respecto de su opinión personal e incongruencia cuando se trata de defender la opinión contraria cuando se le solicita. Partiendo del corpus 3 y de su definición exhaustiva en la sección 2.3.3, ob- tenemos las medias y las desviaciones t´ıpicas por cada vector columna j de cada matriz de observación Xam, Xdm, Xaf y Xdf, las cuales serán estimadas como µamj, µaf j, µdmj, µdf j; σamj, σaf j, σdmj, σdf j, respectivamente.

Estas estimaciones serán usadas en la evaluación de la capacidad de discrimi- nación individual de cada caracter´ıstica [186] por cada subconjunto de hombres y mujeres como: fmj = (µmaj −µmdj)2 σ2 maj−σmdj2 ff j = (µf aj −µf dj)2 σ2 f aj −σf dj2 (4.28)

Las medias estimadas para cada locutor i compondr´an las medias de los vectores fila µam, µaf, µdm y µdf. Adem´as, las matrices de covarianzas para cada sub-

conjunto vendr´an estimadas tambi´en comoSam =E{XamXamT },Saf =E{XafXafT }, Sdm =E{XdmXdmT }ySdf =E{XdfXdfT}, dondeE se refiere a la esperanza estad´ısti-

ca, y (T_{) a la matriz traspuesta.}

A continuación se supondrá que las observaciones son producidas por proce- sos Gaussianos, por tanto los modelos Gaussianos serán Γam ={µam, Sam}, Γaf =

{µaf, Saf}, Γdm ={µdm, Sdm}y Γdf ={µdf, Sdf}.

En el presente enfoque, cada caracter´ıstica de los vectores individualesxami,xdmi,

4.5. ALGORITMOS DE CLASIFICACI ´ON

usando la tasa de verosimilitud logar´ıtmica definida como:

donde las probabilidades condicionadas se definen como:

p(xamij|Γsam) = 1 √ 2πσamj e− (_xamij−_µamj)2 2σ2 amj p(xamij|Γsdm) = 1 √ 2πσdmj e −(xamij−µdmj)2 2σ_dmj2 p(xdmij|Γsam) = 1 √ 2πσamj e− (_xdmij−_µamj)2 2σ2 amj p(xdmij|Γsdm) = 1 √ 2πσdmj e −(xdmij−µdmj)2 2σ2 dmj p(xaf ij|Γsaf) = 1 √ 2πσaf j e −(xafij−µafj)2 2σ2 af j p(xaf ij|Γsdf) = 1 √ 2πσdf j e −(xafij−µdfj)2 2σ2 df j p(xdf ij|Γsaf) = 1 √ 2πσaf j e− (_xdfij−_µafj)2 2σ2 af j p(xdf ij|Γsdf) = 1 √ 2πσdf j e −(xdfij−µdfj)2 2σ2 df j (4.30)

Explicando con un poco más de detalle las ecuaciones se puede decir que los correlatos estimados de frases emitidas de forma congruente (supuestamente libres de estrés -a) son contrastadas contra las emitidas de forma incongruente (potencialmente afectadas por estrés -d). Donde, si el resultado de la probabilidad logar´ıtmica resulta positivo, indicar´ıa que el sujeto está diciendo lo que realmente piensa. Sin embargo, si el resultado de la probabilidad logar´ıtmica es negativo podr´ıa interpre- tarse en el sentido que el individuo no está diciendo lo que realmente piensa.

An´alogamente, los correlatos estimados de frases emitidas de forma incongruente (potencialmente afectadas por estr´es) son contrastadas contra las emitidas de forma

congruente (supuestamente libres de estr´es). Donde, si los registros hablados fueran congruentes se deber´ıa obtener una probabilidad resultante negativa para este caso. Asimismo estos datos no ser´ıan aparentemente coherentes con el tipo de respuesta dada.

Como las tasas de verosimilitud logar´ıtmica han sido estimadas para cada caracter´ıstica ha sido necesario un m´etodo para fusionar todas las tasas de caracter´ısticas individuales para cada locutor. Esto se ha realizado combinando las tasas de verosimilitud logar´ıtmica de las funciones individuales ponderadas por los factores discriminantes que se muestran en 4.31.

ϑami = J X 1 fmjλamij ϑdmi = J X 1 fmjλdmij ϑaf i = J X 1 ff jλaf ij ϑdf i = J X 1 ff jλdf ij (4.31)

Para resumir, cuando una muestra pertenece al conjunto de datos Xaf o Xam,

el resultado de evaluar la ecuaci´on 4.29 deber´ıa de ser mayor que cero o positivo. Mientras que las muestras pertenecientes al conjunto de datos de estr´es, es decir,Xdf

o Xdm deber´ıan producir un valor menor que cero o negativo. De esta forma cada

sujeto habr´ıa realizado de forma congruente el caso propuesto de dos grabaciones, una para el estado de calma y otra para el de estr´es.

La validaci´on de los datos se puede ver en el Cap´ıtulo 5, Resultados, y m´as

In document Contribución al estudio de selección de parámetros para identificación de estrés en la voz (página 123-128)