3. EXTRACCI ´ ON DE CARACTER´ISTICAS
4.5. Algoritmos de Clasificaci´on
Considerando que PLS es un modelo que relaciona dos conjuntos de datos, donde
Xm o Xf ⊂ <J un espacio j-dimensional de variables que representan el primer
bloque, tambi´en llamado depredictores y de forma similar Ym oYf ⊂ <Z un espacio
que representa el segundo bloque de vectores o respuestas, donde la funci´on que realiza PLS es modelar las relaciones entre estos dos conjuntos de datos mediante unos vectores latentes. Habiendo observadonindividuos de cada conjunto de datos, PLS genera una matriz de desviaci´on o lo que es lo mismo una matriz con media igual a cero de tipo (n×J) para la matriz X, an´alogamente para la matriz Y de la forma (n×Z), quedando la siguiente combinaci´on lineal:
X=TPT +E
Y=UQT +F (4.16)
donde T y U son las matrices de proyecci´on deXeY, respectivamente. Estas son de la forma (n×p) dondep son los vectores latentes extra´ıdos.P(J×p) yQ(Z×p) representan las matrices de carga ortogonal y E y F (n×J) son las matrices de residuos o de error. La finalidad de la descomposici´on deXeYes obtener la m´axima covarianza deTyU. El m´etodo cl´asico PLS se basa en el algoritmononlinear partial least squares (NIPALS) [200], el cual estima unos vectores de pesos w, c tales que:
cov(t, u)2
= [cov(Xw, Y c)]2 =max|r|=|s|=1[cov(Xr, Y s)] 2
(4.17) dondecov(t, u) = tTu/ndenota la muestra de la covarianza entre el vector latente
t y u. A continuaci´on se presenta el flujo del algoritmo NIPALS, el cual comienza con la inicializaci´on aleatoria del vector latente u perteneciente al espacio Y. El algoritmo no para de ejecutar hasta que finalmente converge:
1. w=XTu/(uTu) 2. ||w|| −→1 3. t =Xw 4. c=YT/(tTt) 5. ||c|| −→1 6. u=Y c
Obs´ervese que u = y si Z = 1, es decir, Y es un vector unidimensional que se denota comoy. En este supuesto NIPALS converger´ıa en la primera iteraci´on.
4.5.
Algoritmos de Clasificaci´on
Como ya se coment´o al inicio de este cap´ıtulo, existen muchos algoritmos de clasificaci´on, por ejemplo, los modelos de mezclas gausianas (GMM), las redes neu- ronales artificiales (ANN), o las m´aquinas de vector de soporte (SVM), entre otros. Sin embargo, tan solo se describen en este apartado aquellos algoritmos que se han
escogido para clasificar el conjunto de datos. SVM, es id´oneo para clasificar conjun- tos dicot´omicos de datos. Por otro lado, el ratio de m´axima verosimilitud logar´ıtmica es la opci´on acertada cuando se quiere validar el comportamiento de un individuo sobre una poblaci´on muestral.
4.5.1.
Support Vector Machine (SVM)
El objetivo fundamental de las m´aquinas de vectores de soporte o SVM es definir un hiperplano que clasifique todos los vectores de datos en 2 clases, en nuestro caso particular, estr´es y carencia de estr´es [23] y [198]. Siendo m´as formales se podr´ıa decir que SVM construye una funci´on del tipof :<n −→ ±1 a partir de un conjunto
de datos Xaf, Xdf, Xam, Xdm, siendo a acuerdo o estado neutro, d desacuerdo o
estado de estr´es, m representando a los hombres yf a las mujeres, que tendr´an un cardinalnaf onam ondf ondmy de unas etiquetas predefinidas con la clase a la que
pertenecen y que se denotar´an comoyi. Cada fila de la matriz del conjunto de datos
tendr´a losJ par´ametros extra´ıdos para cada uno de los individuos. Por consiguiente la ecuaci´on que define nuestro problema inicial ser´a para el conjunto masculino (o el femenino en su caso):
(xm1, ym1),(xm2, ym2), ...,(xmn, ymn)∈(<n× ±1) (4.18)
por lo tanto la funci´on, f, debe de ser capaz de clasificar correctamente nuevas muestras (xm, ym).
En nuestro caso tendremos (n×2)−1 muestras como matriz de entrenamiento o lo que es lo mismo (Xam+Xdm)−1, para el conjunto de datos masculino; mientras
que (Xaf+Xdf)−1 ser´a para el conjunto femenino, donde cada fila corresponder´a a
un vector de un individuo que tendr´aj caracter´ısticas o par´ametros. Cada individuo
xi tendr´a una etiqueta asociada yi que equivaldr´a al estado de estr´es o carencia de
estr´es. Esta forma de entrenar el algoritmo se denomina leave-one-out, y ser´a co- mentada en detalle en el Cap´ıtulo 5, Resultados.
La f´ormula que define el hiperplano y trata de separar los datos etiquetados se denota como sigue:
g(x) = wTx+w0 (4.19)
dondew se conoce como elvector de pesos yw0 como elumbral. Este hiperplano
hace m´axima la distancia entre ambas clases (denominado como el hiperplano de margen m´aximo). Este margen viene definido por la distancia entre el hiperplano y los elementos m´as cercanos respecto a ´el, donde se tiene en consideraci´on la siguiente regla de decisi´on: wTx+w0 si > 0 si < 0 ⇒x∈ w1 corresponde con yi = +1 w2 corresponde con yi =−1 (4.20)
4.5. ALGORITMOS DE CLASIFICACI ´ON
Todos los puntos de entrenamiento se clasificar´an correctamente si:
yi(wTxi+w0)> b para todo i (4.21)
Por consiguiente, una posible soluci´on para que todos los puntos xi est´en a una
distancia mayor que b/|w| ser´ıa si para un b = 1 y sin p´erdida de generalidad gener´asemos dos hiperplanos del tipo H1 : wTx+w0 = +1 y H2 :wTx+w0 =−1.
Donde a estos planos se les denominanhiperplanos can´onicos que hacen ciertas las expresiones siguientes:
wTx+w0 ≥+1 para yi = +1 wTx+w0 ≤ −1 para yi =−1
(4.22) Llamamos margen total a la suma de los m´argenes obtenidos a partir de H1 y
H2. Estos m´argenes vienen definidos como h=
|g(x)| |w| =
1
|w|. La distancia entreH1 y
H2 y el hiperplano de separaci´on, A, la cual se define como margen que hace cierta
la ecuaci´on,g(x) = 0. Por tanto, la maximizaci´on del margen es la b´usqueda de una soluci´on que minimiza |w| para la restricci´on, R1:
R1 :yi(wTxi+w0)≥1, donde i= 1, ..., n (4.23)
Por lo tanto, la forma de conseguir la m´axima distancia es minimizando el m´odulo del vector de pesos, |w|. Para mininimizar el vector de pesos es necesario llevar a cabo una tarea de optimizaci´on no lineal, la cual se basa en las condiciones de
Karush-Kuhn-Tucker o (KKT) [93]. Para ello es necesario utilizar multiplicadores de Lagrangeλi, teniendo en cuenta una restricci´on adicionalPni=1λiyi = 0 y obteniendo
la ecuaci´on de vectores de soporte,w, mostrada en la siguiente ecuaci´on:
w=
n
X
i=1
λiyixi (4.24)
SVM tiene una serie dekernels o funciones muy populares para generar el c´alcu- lo de los hiperplanos a partir de los conjuntos de entrenamiento. Por ejemplo en MatlabR podemos encontrar algunos de los siguientes:
Polinomial:
K(x1, x2) = xT1x2+ 1 ρ
(4.25) Funci´on de base radial:
K(x1, x2) = exp −kx1 −x2k 2 2σ2 (4.26) dondeρ es el orden del polinomio yσ es el ancho del kernel. Cuandoρadquiere los valores que a continuaci´on se presentan, el kernel de entrenamiento se convierte en:
ρ= 2 ⇒genera unkernel de tipo cuadr´atico, que es uno de los m´as utilizados. En la fase de test o clasificaci´on, un SVM utiliza:
f(x) =X
i
αik(si, x) +b (4.27)
donde αi son los pesos, si son los vectores de soporte, b es el umbral y k es
el kernel utilizado. Obs´ervese que, si el kernel es lineal, k es el producto escalar. Entonces, si f(x) > 0, x ser´a clasificado como la primera clase, mientras que si
f(x)<0, x ser´a de la segunda clase.
4.5.2.
Log-likelihood Ratio
Hemos implementado un algoritmo propio a partir del cual se obtiene unos indica- dores que validan el conjunto de datos, bas´andonos en la verosimilitud logar´ıtmica o log-likelihood [74]. Este m´etodo trata de comprobar si el sujeto i muestra con- gruencia en caso de defender su opini´on sincera, respecto de su opini´on personal e incongruencia cuando se trata de defender la opini´on contraria cuando se le solicita. Partiendo del corpus 3 y de su definici´on exhaustiva en la secci´on 2.3.3, ob- tenemos las medias y las desviaciones t´ıpicas por cada vector columna j de ca- da matriz de observaci´on Xam, Xdm, Xaf y Xdf, las cuales ser´an estimadas como µamj, µaf j, µdmj, µdf j; σamj, σaf j, σdmj, σdf j, respectivamente.
Estas estimaciones ser´an usadas en la evaluaci´on de la capacidad de discrimi- naci´on individual de cada caracter´ıstica [186] por cada subconjunto de hombres y mujeres como: fmj = (µmaj −µmdj)2 σ2 maj−σmdj2 ff j = (µf aj −µf dj)2 σ2 f aj −σf dj2 (4.28)
Las medias estimadas para cada locutor i compondr´an las medias de los vec- tores fila µam, µaf, µdm y µdf. Adem´as, las matrices de covarianzas para cada sub-
conjunto vendr´an estimadas tambi´en comoSam =E{XamXamT },Saf =E{XafXafT }, Sdm =E{XdmXdmT }ySdf =E{XdfXdfT}, dondeE se refiere a la esperanza estad´ısti-
ca, y (T) a la matriz traspuesta.
A continuaci´on se supondr´a que las observaciones son producidas por proce- sos Gaussianos, por tanto los modelos Gaussianos ser´an Γam ={µam, Sam}, Γaf =
{µaf, Saf}, Γdm ={µdm, Sdm}y Γdf ={µdf, Sdf}.
En el presente enfoque, cada caracter´ıstica de los vectores individualesxami,xdmi,
4.5. ALGORITMOS DE CLASIFICACI ´ON
usando la tasa de verosimilitud logar´ıtmica definida como:
λamij = log p(xamij|Γsam) p(xamij|Γsdm) λdmij = log p(xdmij|Γsam) p(xdmij|Γsdm) λaf ij = log p(xaf ij|Γsaf) p(xaf ij|Γsdf) λdf ij = log p(xdf ij|Γsaf) p(xdf ij|Γsdf) (4.29)
donde las probabilidades condicionadas se definen como:
p(xamij|Γsam) = 1 √ 2πσamj e− (xamij−µamj)2 2σ2 amj p(xamij|Γsdm) = 1 √ 2πσdmj e −(xamij−µdmj)2 2σdmj2 p(xdmij|Γsam) = 1 √ 2πσamj e− (xdmij−µamj)2 2σ2 amj p(xdmij|Γsdm) = 1 √ 2πσdmj e −(xdmij−µdmj)2 2σ2 dmj p(xaf ij|Γsaf) = 1 √ 2πσaf j e −(xafij−µafj)2 2σ2 af j p(xaf ij|Γsdf) = 1 √ 2πσdf j e −(xafij−µdfj)2 2σ2 df j p(xdf ij|Γsaf) = 1 √ 2πσaf j e− (xdfij−µafj)2 2σ2 af j p(xdf ij|Γsdf) = 1 √ 2πσdf j e −(xdfij−µdfj)2 2σ2 df j (4.30)
Explicando con un poco m´as de detalle las ecuaciones se puede decir que los correlatos estimados de frases emitidas de forma congruente (supuestamente libres de estr´es -a) son contrastadas contra las emitidas de forma incongruente (potencial- mente afectadas por estr´es -d). Donde, si el resultado de la probabilidad logar´ıtmica resulta positivo, indicar´ıa que el sujeto est´a diciendo lo que realmente piensa. Sin embargo, si el resultado de la probabilidad logar´ıtmica es negativo podr´ıa interpre- tarse en el sentido que el individuo no est´a diciendo lo que realmente piensa.
An´alogamente, los correlatos estimados de frases emitidas de forma incongruente (potencialmente afectadas por estr´es) son contrastadas contra las emitidas de forma
congruente (supuestamente libres de estr´es). Donde, si los registros hablados fueran congruentes se deber´ıa obtener una probabilidad resultante negativa para este caso. Asimismo estos datos no ser´ıan aparentemente coherentes con el tipo de respuesta dada.
Como las tasas de verosimilitud logar´ıtmica han sido estimadas para cada carac- ter´ıstica ha sido necesario un m´etodo para fusionar todas las tasas de caracter´ısticas individuales para cada locutor. Esto se ha realizado combinando las tasas de ve- rosimilitud logar´ıtmica de las funciones individuales ponderadas por los factores discriminantes que se muestran en 4.31.
ϑami = J X 1 fmjλamij ϑdmi = J X 1 fmjλdmij ϑaf i = J X 1 ff jλaf ij ϑdf i = J X 1 ff jλdf ij (4.31)
Para resumir, cuando una muestra pertenece al conjunto de datos Xaf o Xam,
el resultado de evaluar la ecuaci´on 4.29 deber´ıa de ser mayor que cero o positivo. Mientras que las muestras pertenecientes al conjunto de datos de estr´es, es decir,Xdf
o Xdm deber´ıan producir un valor menor que cero o negativo. De esta forma cada
sujeto habr´ıa realizado de forma congruente el caso propuesto de dos grabaciones, una para el estado de calma y otra para el de estr´es.
La validaci´on de los datos se puede ver en el Cap´ıtulo 5, Resultados, y m´as