Algoritmos SVM para problemas sobre big data

(1)

Algoritmos SVM para problemas sobre big data

Trabajo fin de m´aster para

M´ aster en Investigaci´ on e Innovaci´ on en Tecnolog´ıas de la Informaci´ on y las Comunicaciones

Yvonne Gala Garc´ıa

bajo la direcci´on de

Jos´e Ram´ on Dorronsoro Ibero

Madrid, 25 de septiembre de 2013

(2)

(3)

´Indice general II

1. Teor´ıa cl´asica de las M´aquinas de Vectores Soporte 1

1.1. Optimizaci´on . . . 2

1.1.1. Problema de optimizaci´on primal . . . 2

1.1.2. Teor´ıa Lagrangiana . . . 4

1.1.3. Formulaci´on Dual del problema Primal . . . 4

1.1.4. Condiciones de Kuhn-Tucker . . . 5

1.2. M´aquinas de Vectores Soporte (SVM) . . . 6

1.2.1. Caso linealmente separable . . . 6

1.2.2. Caso no separable linealmente . . . 9

1.2.3. M´aquinas de Vectores Soporte para Regresi´on . . . 11

1.2.4. Proyecci´on a espacios de alta dimensi´on . . . 13

1.2.5. Propiedades de las SVM . . . 15

1.3. Sequential Minimal Optimization (SMO) . . . 15

2. Algoritmos de M´aquinas de Vectores Soporte para grandes datos 19 2.1. El m´etodo Dual Coordinate Descent (DCD) . . . 19

2.1.1. Algoritmo . . . 20

2.1.2. Extensiones . . . 24

2.1.3. Comparaci´on con m´etodos previos . . . 24

2.2. Pegasos . . . 26

2.2.1. Algoritmo . . . 26

2.2.2. Extensiones . . . 28

3. Experimentos Num´ericos 31 3.1. Introducci´on . . . 31

3.2. Predicci´on de radiaci´on en estaciones individuales . . . 32

3.2.1. Descripci´on de los datos . . . 32

3.2.2. Descripci´on de los patrones . . . 34

3.2.3. Transformaciones . . . 34

3.2.4. Modelos lineales y gaussianos . . . 35

3.2.5. Resultados . . . 37

3.3. Predicci´on con patrones peninsulares . . . 40

3.3.1. Predicci´on por estaci´on . . . 40

3.3.2. Modelos de radiaci´on media peninsular . . . 42

3.4. Desagregaci´on horaria . . . 44 iii

(4)

3.5. Conclusiones sobre los experimentos de radiaci´on . . . 46

3.6. Clasificaci´on de p´aginas web . . . 47

3.6.1. Extracci´on de datos . . . 48

3.6.2. Obtenci´on de datos y construcci´on de patrones . . . 50

3.6.3. Construcci´on de modelos . . . 51

3.6.4. Resultados . . . 52

3.6.5. Conclusiones . . . 53

4. Conclusiones 55 4.1. Discusi´on . . . 55

4.2. Trabajos futuros . . . 56

Bibliograf´ıa 56

(5)

1.0.1.Hiperplanos . . . 1

1.1.1.Funci´on convexa . . . 3

1.2.1.Problema no separable linealmente . . . 9

1.2.2.Banda . . . 11

1.2.3.Gráfica que muestra cómo influyen ξ y gráficamente. . . 12

1.2.4.Proyecci´on mediante una funci´on φ : R² −→ R³ . . . 14

3.2.1.Mapa de las estaciones solares de las que tenemos datos de radiaci´on real . . . 33

3.6.1.Gráfica que muestra el parámetro de regularización C frente al tiempo de entrenamiento en segundos . . . 53

v

(6)

(7)

3.2.1.Ejemplo del conjunto de entrenamiento, validación y test . . . 33 3.2.2.Esquema de los patrones para modelos diarios . . . 34 3.2.3.Esquema de los patrones para modelos trihorarios . . . 34 3.2.4.Parámetros óptimos para Alicante y A Coruña en el modelo lineal . . 36 3.2.5.Parámetros óptimos para Alicante y A Coruña en el modelo gaussiano 37 3.2.6.MAE de las predicciones diarias de ECMWF agregado y modelos

SVR-D y SVR-3H agregado con n´ucleo lineal y gaussiano. . . 39 3.2.7.MAE de las predicciones trihorarias de ECMWF y modelos SVR-D

desagregado y SVR-3H con núcleo lineal y gaussiano. . . 40 3.3.1.Parámetros óptimos para Alicante y A Coruña para LIBSVM y LI-

BLINEAR en modelos diarios . . . 41 3.3.2.Parámetros óptimos para Alicante y A Coruña para LIBSVM y LI-

BLINEAR en modelos trihorarios . . . 42 3.3.3.MAE de las predicciones diarias de ECMWF, SVR-D y SVR-3H en

Alicante y A Coru˜na con informaci´on de toda la Pen´ınsula con LIBLI- NEAR y LIBSVM. . . 42 3.3.4.MAE de las predicciones trihorarias de ECMWF, SVR-D y SVR-3H

en Alicante y A Coruña con información de toda la Pen´ınsula con LIBLINEAR y LIBSVM. . . 43 3.3.5.Parámetros óptimos de los modelos de predicción media total penin-

sular con LIBSVM y LIBLINEAR en modelos diarios . . . 43 3.3.6.Parámetros óptimos de los modelos de predicción media total penin-

sular con LIBSVM y LIBLINEAR en modelos trihorarios . . . 44 3.3.7.MAE para la predicci´on media total diaria peninsular dadas por los

modelos de ECMWF y SVR con LIBSVM y LIBLINEAR . . . 44 3.3.8.MAE para la predicci´on media total trihoraria peninsular dadas por

los modelos de ECMWF y SVR con LIBSVM y LIBLINEAR . . . 45 3.4.1.MAE para predicciones horarias ECMWF, lSVR-3H, lSVR-D, gSVR-

3H y gSVR-D. . . 45 3.4.2.MAE para predicciones horarias ECMWF, SVR-3H y SVR-D con LI-

BLINEAR y LIBSVM . . . 46 3.6.1.Esquema de los patrones para clasificaci´on web . . . 51 3.6.2.Resultados de la clasificaci´on web para LIBSVM, LIBLINEAR y Pegasos 53

vii

(8)

Las Máquinas de Vectores Soporte es una de las técnicas más poderosas del aprendizaje automático cuya idea principal consiste en encontrar un separador lineal de las clases. Con una serie de transformaciones esta idea puede ser extendida para problemas en el que los datos no sean linealmente separables mediante la proyección a un espacio de dimensión superior, es decir, construimos un separador lineal en el espacio proyectado para unos datos que en el espacio de entrada no son linealmente separables. Esta técnica puede ser utilizada tanto para problemas de clasificación como de regresión.

La ventaja de las Máquinas de Vectores Soporte está en la sencillez de los modelos, as´ı como su robustez y buena generalización para nuevos datos.

El algoritmo Sequential Minimal Optimization (SMO) ha sido el más extensa- mente utilizado, ya que es el que utiliza la librer´ıa LIBSVM. Consiste en resolver subproblemas del problema inicial para que el coste computacional sea menos costoso. A lo largo de los últimos años, se han desarrollado algoritmos que usando la información del gradiente obtienen una tasa de convergencia mucho menor que la de SMO, es decir, convergen en menos iteracciones a la soución óptima, como son Dual Coordinate Descent Method (DCD) o Stochastic sub-gradient Descent Method (Pegasos).

Por tanto en este trabajo fin de máster será estudiado el algoritmo y convergencia de SMO, DCD y Stochastic sub-gradient Descent Method. Además serán aplicados a problemas con mucho auge en la actualidad como son la predicción de energ´ıa solar y la clasificación de páginas web y en los que debido a la creciente importancia, cada d´ıa disponemos de más información, y por tanto más patrones siendo necesario el uso de algoritmos eficientes con una convergencia a la solución óptima en pocas iteracciones.

(9)

Este Trabajo Fin de Master sintetiza gran parte de mi trabajo realizado durante el

´

ultimo año con el grupo de investigación GAA, Escuela Politécnica Superior, Uni- versidad Autónoma de Madrid. El trabajo ha sido patrocinado por la Beca de la Cátedra ADIC-UAM de modelado y predicción. Por tanto me gustar´ıa agradecer el apoyo de la cátedra y a mi tutor, José Ramón Dorronsoro por su gu´ıa y por su apoyo durante este periodo de tiempo.

(10)

En este trabajo fin de máster hemos tratado de estudiar el estado del arte de los algoritmos de las Máquinas de Vectores Soporte. En la actualidad la mayor´ıa de las investigaciones se centran en encontrar u optimizar los algoritmos ya existentes para hacerlos más eficaces. Muchas de estas investigaciones se encaminan usando la infor- mación del gradiente en cada coordenada para hacer la optimización más eficiente. A lo largo de este trabajo hemos estudiado la teor´ıa básica de optimización y Máquinas de Vectores Soporte (SVM), algoritmos clásicos de las SVM como Sequential Minimal Optimization (SMO) y algoritmos más nuevos y optimizados como Dual Coordina- te Descent Method (DCD) o Stochastic sub-gradient Descent Method. Por último hemos usados estos tres algoritmos en dos problemas diferentes el de predicción de radiación solar y el de clasificación de páginas web. Todo esto ha sido desarrollado de la siguiente manera:

En el primer cap´ıtulo vamos a explicar la teor´ıa básica de optimización y de las Máquinas de Vectores Soporte, junto con el algoritmo SMO. SMO un método de descomposición para las SVM que reduce el coste computacional eligiendo subproblemas de menor tamaño y que es el utilizado e implementado en la famosa librer´ıa LIBSVM.

En el segundo cap´ıtulo hemos estudiado dos tipos de algoritmos online y batch, que utilizando la informaci´on del gradiente optimizan la convergencia del algoritmo, estos son; Dual Coordinate Descent Method (DCD) y Stochastic sub-gradient Descent Method.

El tercer cap´ıtulo está dedicado a los experimentos numéricos. En ellos hemos utilizado algunas de librer´ıas disponibles para estos algoritmos, como LIBSVM para SMO, LIBLINEAR para DCD y Pegasos para el método Stochastic subgradient descent. También hemos implementando una búsqueda exhaustiva en rejilla con un conjunto de validación para dos problemas muy diferentes. El primero se trata de un problema de clasificación de predicción de radiación solar, el segundo de clasificación de páginas web.

Por ´ultimo, el cuarto cap´ıtulo resume algunas de las conclusiones obtenidas en este trabajo fin de m´aster y posibles trabajos futuros.

(11)

Teor´ıa cl´ asica de las M´ aquinas de Vectores Soporte

Las M´aquinas de Vectores de Soporte o Support Vector Machines (SVM) son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir Vapnik.

El objetivo de los problemas de clasificaci´on que aplican este tipo algoritmos de aprendizaje supervisado es el siguiente; dado un conjunto de entrenamiento con sus etiquetas de clase, entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra o conjunto de test.

Las SVM son una de las técnicas más poderosas del aprendizaje automático.

Consiste en construir un hiperplano en un espacio de dimensionalidad muy alta (o incluso infinita) que separe las clases que tenemos. Una buena separación entre las clases permitirá un clasificación correcta de la nueva muestra, es decir, necesitamos encontrar la máxima separación a los puntos más cercanos a este hiperplano.

La figura 1.0.1 muestra un ejemplo gr´afico del hiperplano que separa la muestra en dos clases.

Figura 1.0.1: Ejemplo sencillo en el que tenemos varios hiperplanos y tratamos de encontrar aquel que mejor separe la muestra.

Por tanto, detrás de la teor´ıa de las Máquinas de Vectores Soporte está maximizar la distancia del hiperplano a los puntos más cercanos de la muestra, por lo que antes

1

(12)

de profundizar m´as en ella es necesario explicar algunos conceptos de la teor´ıa de optimizaci´on.

En el siguiente apartado vamos a explicar tanto conceptos básicos de optimiza- ción, como herramientas para convertir un problema primal a su correspondiente problema dual, condiciones de Kunh-Tucker y condiciones necesarias y suficientes para determinar la solución de un problema de optimización.

1.1. Optimizaci´ on

La teor´ıa de optimización [1] es una herramienta imprescindible en el desarrollo de la técnica usada por las Máquinas de Vectores Soporte, ésta es la razón por la que se justifica la presencia de este cap´ıtulo.

Un problema de optimización trata de encontrar el máximo o el m´ınimo de una función sujeta a una serie de restricciones que pueden ser de igualdad o desigualdad.

Dependiendo de la función a optimizar y de las restricciones tenemos infinidad de tipos de problemas de optimización en los que podemos usar diferentes algoritmos. En esta sección vamos a centrarnos en los problemas de optimización convexa cuadráticos con restricciones lineales, es decir aquellos en los que la función objetivo es cuadrática y las restricciones son lineales.

1.1.1. Problema de optimizaci´ on primal

En este apartado vamos a definir los conceptos de función convexa, problema de optimización primal y condición de Fermat.

Definicion 1. Una funci´on f , definida en f : Rⁿ −→ R^m es convexa si para todo x, y ∈ Rⁿ existe θ tal que:

f (θx + (1 − θ)y) ≤ θf (x) + (1 − θ)f (y) La figura 1.1.1 muestra un ejemplo gr´afico de funci´on convexa.

Definicion 2 (Problema de optimización primal). Dadas las funciones convexas f , g_i, i = 1, · · · , k, y h_i, i = 1, · · · , m, definidas en un dominio Ω ⊆ Rⁿ. El problema de optimización primal será el siguiente:

m´ın f (w), w ∈ Ω, s.t g_i(w) ≤ 0, i = 1, · · · , k,

h_i(w) = 0, i = 1, · · · , m,

(1.1.1)

donde f (w) es conocida como funci´on objetivo, h_i(w) son las restricciones de igualdad y gi(w) las restricciones de desigualdad.

La solución del problema de optimización convexa 1.1.1 viene dada por w^∗ ∈ R donde R se conoce como región factible y se define de la siguiente manera:

R = {w ∈ Ω : g(w) ≤ 0, h(w) = 0}

(13)

Figura 1.1.1: Figura que muestra un ejemplo de funci´on convexa.

Definicion 3 (M´ınimo local). Un m´ınimo w^∗ de f es local, si existe tal que w^∗, para todo w ∈ (w^∗− , w^∗+ ), f (w) ≤ f (w^∗)

Definicion 4 (M´ınimo global). Un m´ınimo w^∗ de f es global en un dominio D, si para todo w ∈ D y w^∗ ∈ D, f (w^∗) ≤ w.

En el caso del problema 1.1.1 en el que tenemos un problema de optimización convexa cuadrático, cualquier m´ınimo local será m´ınimo global, ya que el m´ınimo del problema es único por convexidad, y además siempre existirá por tratarse de un problema cuadrático. Es decir, la solución del problema 1.1.1 es aquel w que cumple las restricciones, y además es un m´ınimo global.

Esta es una de las ventajas de las Máquinas de Vectores Soporte frente a otros algoritmos del aprendizaje automático, y es que la solución siempre existe y es única.

Por último el teorema 1 nos dará las condiciones para que un punto w^∗ sea m´ınimo de una función f . Este teorema se conoce como Teorema de las condiciones de Fermat [1].

Teorema 1 (Condiciones de Fermat). Si una función es convexa y diferenciable, y además el gradiente es cero en un punto w^∗, entonces existe un m´ınimo de la función en ese punto. En otras palabras;

∂f (w^∗)

∂w = 0

junto con la convexidad de f es condici´on suficiente para que w^∗ sea un m´ınimo.

Al tratarse de un problema de optimización con restricciones no podemos usar las técnicas clásicas anal´ıticas, por ello es necesario introducir la teor´ıa Lagrangiana.

Esta nos permite resolver problemas de optimizaci´´ on con restricciones sin resolver expl´ıcitamente esas restricciones.

(14)

1.1.2. Teor´ıa Lagrangiana

El principal uso de la teor´ıa Lagrangiana [2] en este contexto es transformar un problema de optimización con restricciones de igualdad en uno con restricciones simples. Esta transformación será llevada a cabo a través de una nueva función que introduciremos conocida como función lagrangiana.

Definicion 5 (Lagrangiano). Dado un problema de optimizaci´on cuya funci´on objetivo es f (w), y las restricciones de igualdad son h_i(w) = 0, i = 0, ..., m

m´ın f (w), w ∈ Ω,

s.t h_i(w) = 0, i = 1, · · · , m (1.1.2) definimos el lagrangiano de la funci´on (1.1.2) como:

L(w, β) = f (w) +

m

X

i=1

β_ih_i(w), (1.1.3)

donde βi son conocidos como los multiplicadores de Lagrange.

Como nuestro objetivo es minimizar la funci´on lagrangiana, existe un teorema que nos garantiza la existencia de ese m´ınimo [1].

Teorema 2. Una condici´on necesaria para que un punto w^∗ sea m´ınimo de la funci´on f (w) sujeta a h_i(w) = 0, i = 1, .., m con f y h_i ∈ C¹ es:

∂L(w^∗, β^∗)

∂w = 0

∂L(w^∗, β^∗)

∂β = 0

Las condiciones anteriores tambi´en son suficientes si L(w, β^∗) es una funci´on convexa de w.

1.1.3. Formulaci´ on Dual del problema Primal

Dado un problema de optimizaci´on primal puede ser transformado a su correspondiente problema dual mediante la siguiente f´ormula:

θ(α, β) = inf_w∈ΩL(w, α, β)

s.t. α ≥ 0, (1.1.4)

donde L es el lagrangiano de la funci´on primal 1.1.2.

Como podemos observar, en este nuevo problema tratamos de encontrar el máxi- mo de una función θ, que sólo dependerá de los multiplicadores de Lagrange, i.e. α_i y βj para todo i, j. De hecho, la función θ se define como el ´ınfimo del lagrangiano sobre w.

En la mayor´ıa de las ocasiones resolver el problema dual resulta mucho más sencillo y en el caso de las SVM, tiene una serie de ventajas que explicaremos más adelante. De la formulación dual, obtenemos varios teoremas que serán útiles en la búsqueda del óptimo [1].

(15)

Teorema 3 (Teorema débil de la dualidad). Dado el problema de optimización 1.1.1 y su dual definido como 1.1.4, si w ∈ Ω es un punto de la región factible del problema primal y (α, β) es una solución factible del dual, existe la siguiente relación;

f (w) ≥ θ(α, β).

Esto se deduce inmediatamente de la definici´on 1.1.4 del problema dual ya que;

θ(α, β) = infw∈ΩL(w, α, β) ≤ L(w, α, β) = f (w) + αg(w) + βh(w) ≤ f (w).

Definicion 6 (Gap Dual). La diferencia entre el valor ´optimo del problema primal w^∗ y de problema dual (α^∗, β^∗) es conocido como gap dual.

Teorema 4 (Teorema fuerte de la dualidad). Dado el problema de optimizaci´on 1.1.1 y su dual definido como 1.1.4, si las restricciones son funciones afines, es decir, satisfacen f (x) = Ax + b, entonces el gap dual ser´a cero. Es decir,

f (w^∗) = θ(α^∗, β^∗),

con f (w^∗) y θ(α^∗, β^∗) soluciones ´optimas del problema primal y dual respectivamente.

Resumiendo, el teorema débil de la dualidad da la relación entre la solución del problema dual y primal, donde el valor de la función objetivo en el problema dual es menor o igual que el valor de la función objetivo en el problema primal. Por el teorema fuerte de la dualidad sabemos que el valor la función de optimización del problema primal y dual coinciden en el óptimo.

1.1.4. Condiciones de Kuhn-Tucker

Hasta ahora los problemas que hemos tratado con la teor´ıa Lagrangiana básica son problemas de optimización con restricciones de igualdad, como es el caso de 1.1.2. Las condiciones de Kuhn-Tucker sirven para generalizar los problemas de optimización de funciones convexas con restricciones de igualdad a problemas con restricciones desigualdad también, como en el problema (1.1.1).

m´ın f (w), w ∈ Ω, s.t g_i(w) ≤ 0, i = 1, · · · , k,

h_i(w) = 0, i = 1, · · · , m,

(1.1.5)

Para este caso definimos la nueva funci´on lagrangiana como:

L(w, β) = f (w) +

k

X

i=1

α_ig_i(w) +

m

X

j=1

β_ih_i(w), (1.1.6)

donde α_iy β_j son los multiplicadores de Lagrange y se cumple que; f funci´on convexa, g_i, h_i afines y α_i ≥ 0.

Para garantizar la existencia del m´ınimo tenemos un nuevo teorema, en las que se especifican las condiciones de Kuhn-Tucker.

(16)

Teorema 5 (Condiciones KKT). Una condici´on necesaria y suficiente para que un punto w^∗ sea ´optimo es la existencia de α^∗, β^∗ tal que:

∂L(w^∗, α^∗, β^∗)

∂w = 0

∂L(w^∗, α^∗, β^∗)

∂β = 0

α^∗_igi(w^∗) = 0, i = 1, · · · , k g_i(w^∗) ≤ 0, i = 1, · · · , k α^∗_i ≥ 0, i = 1, · · · , k.

La ecuaci´on α^∗_ig_i(w^∗) = 0, i = 1, · · · , k es conocida como la condici´on KKT complementaria.

Una vez definidas la formulación primal y dual del problema de optimización, la función lagrangiana y las condiciones KKT estamos en condiciones de comenzar a estudiar la teor´ıa básica de las Máquinas de Vectores Soporte.

1.2. M´ aquinas de Vectores Soporte (SVM)

Las Máquinas de Vectores Soporte [1], en inglés Support Vector Machines (SVM), es una de los técnicas más poderosas del aprendizaje automático, que a pesar de su sencillez ha demostrado ser un algoritmo robusto y que generaliza bien en problemas de la vida real.

Como hemos explicado en la introducción de este cap´ıtulo, la técnica de las SVM consiste en construir un hiperplano en un espacio de dimensionalidad muy alta que separe las clases que tenemos. Esta técnica puede ser utilizada tanto en problemas de clasificación como de regresión. Una buena separación entre las clases permitirá un clasificación correcta.

En esta sección comenzaremos explicando el problema más sencillo de SVM en clasificación, es decir, aquel en el que los datos son linealmente separables, para después generalizarlo aquellos casos en los que no lo sean introduciendo una nueva variable que nos permita cometer ciertos errores. Posteriormente pasaremos a explicar las Máquinas de Vectores Soporte para regresión y por último introduciremos los conceptos de núcleo y proyección.

1.2.1. Caso linealmente separable

Dado que el objetivo de las SVM es buscar el hiperplano óptimo que mejor separe las clases, introduciremos el concepto de margen para conseguirlo. Este concepto sólo tiene sentido en los casos en los que datos sean linealmente separables, pero es la base para obtener el problema de optimización que nos dará el algoritmo de las SVM.

(17)

Definicion 7. Si consideramos el conjunto de datos de entrenamiento como (x_i, y_i), i = 1, ..., m, con xi ∈ R^l e yi ∈ {−1, 1} y suponemos que existe un hiperplano que separa esos datos dado por:

f (x) = x· w + b.

Entonces, podemos definir el margen como la suma de las distancias de los puntos m´as cercanos al hiperplano, es decir:

γ = 1 2( w

||w||₂ · x⁺− w

||w||₂ · x⁻) = 1

2||w||₂(w · x⁺− w · x⁻) = 2

||w||₂,

donde x⁺ y x⁻ representan los patrones pertenecientes a la clase positiva y negativa respectivamente.

Por tanto, el objetivo es maximizar el margen γ = _||w||²

2, matem´aticamente esto es lo mismo que minimizar la siguiente funci´on:

m´ın1

2||w||² (1.2.1)

sujeta a una serie de restricciones, que vienen de la condici´on de que las clases positivas (y_i = 1) deben estar separadas de las clases negativas (y_i = −1).

x_i· w + b ≥ +1para y_i = +1 (1.2.2) x_i · w + b ≤ −1para y_i = −1 (1.2.3) y donde las restricciones 1.2.2 y 1.2.3 pueden ser unidas en una s´ola de la siguiente manera:

y_i(x_i· w + b) − 1 ≥ 0 ∀i. (1.2.4) Finalmente, si juntamos la función 1.2.1 con la restricción 1.2.4 obtenemos el problema primal de optimización de las Máquinas de Vectores Soporte:

m´ınw,b

1 2||w||²

s.t yi(w · xi+ b) − 1 ≥ 0 ∀i. (1.2.5) Por tanto nos encontramos ante un problema de optimizaci´on cuadr´atica convexa con restricciones lineales, en el que el hiperplano se obtiene minimizando la norma del vector de pesos w.

Para minimizar la función usaremos la función lagrangiana para el problema 1.2.5, que por lo explicado en la sección previa la podemos caracterizar como:

L(w, b, α) = 1

2||w||²−

l

X

i=1

α_i[y_i(w· x_i+ b) − 1], (1.2.6) donde L debe ser minimizada sobre w y b, por tanto calculamos ^∂L_w y ^∂L_b e igualamos a cero, obteni´endose las siguientes ecuaciones:

∂L(w, b, α)

w = w −

n

X

i=1

y_iα_ix_i = 0

(18)

∂L(w, b, α)

b =

n

X

i=1

y_iα_i = 0,

que sustituidas en la ecuaci´on de Lagrangiano 1.2.6 nos dar´a:

L(w, b, α) = 1 2

l

X

i,j=1

y_iy_jα_iα_jx_i · x_j −

l

X

i,j=1

y_iyjα_iα_jx_i· x_j −

l

X

i=1

α_iy_ib +

l

X

i=1

α_i = Θ(α) (1.2.7) y por tanto, el problema dual para las SVM ser´a:

m´ax

α Θ(α) =P

iα_i− ¹₂P

i,jα_iα_jy_iy_jx_i· x_j

s.t α_i ≥ 0 ∀i

P

iα_iy_i = 0.

(1.2.8)

Por último, la condición KKT complementaria será:

α^∗_i(y_i((w · x_i+ b^∗) − 1)) = 0.

Una vez obtenida la solución óptima del problema dual (α^∗, b^∗) de las SVM 1.2.8 de las condiciones KKT y las derivadas parciales del lagrangiano, podemos obtener los pesos w^∗ del problema primal mediante la ecuación dada por ^∂L_w = 0:

w^∗ =

l

X

i=1

y_iα_ix_i, (1.2.9)

mientras que el t´ermino de bias se corresponder´a con:

b^∗ = y_i− w^∗ · x_i = y_i−

l

X

i=1

α_i^∗y_ix_i· x_j.

También de la condición KKT complementaria observamos que si α^∗_i > 0 entonces y_i(w · x_i+ b^∗) = 1, (1.2.10) por tanto estos serán los puntos que están en el hiperplano. En resumen, por la ecuación 1.2.9 y de la condición 1.2.10 deducimos que los puntos que definen los pesos son aquellos que están en el hiperplano óptimo, es decir, aquellos en los que α^∗_i > 0 y por tanto se tiene 1.2.10. A estos puntos los llamaremos vectores soporte.

Finalmente el hiperplano ´optimo puede representarse mediante α^∗ y b^∗ como:

f (x, w^∗, b^∗) =X

i∈vs

yiαixi· x + b^∗.

(19)

Figura 1.2.1: Ejemplo de problema no separable linealmente

1.2.2. Caso no separable linealmente

En la vida real, la mayor´ıa de los problemas no tienen datos linealmente separables, lo que imposibilita la tarea de encontrar un hiperplano que separe perfectamente los datos. Para resolver este problema introducimos una nueva variable, a la que co- nocemos como variable de holgura y denotamos por ξ. El objetivo de esta nueva variable es hacer el modelo menos r´ıgido y permitir ciertos errores, es decir, que algunos puntos de clase +1 sean clasificados como −1 y viceversa.

Al introducir una nueva variable, lógicamente, nuestro problema cambia, ya que tanto la función a optimizar como las restricciones no son las mismas. Las restricciones ahora tendrán la forma:

y_i(w· x_i+ b) − 1 + ξ_i ≥ 0∀i (1.2.11) permitiendo un margen ξ_i de equivocación. La figura 1.2.1 nos muestra gráficamente el efecto de ξ_i en la separación de las clases.

Al mismo tiempo, vamos a penalizar ese error con un nuevo parámetro C, que es añadido a la función objetivo, de tal manera que a mayor C, mayor es la penalización que damos a los errores y por tanto permitimos menos. Por el contrario si C es pequeño, permitimos a nuestro modelo cometer más errores.

El valor de C va ser importante en este sentido, ya que si damos un valor de- masiado grande, el modelo penalizará mucho los errores cometidos en el conjunto de entrenamiento y por tanto se producirá el overfitting o sobreaprendizaje, esto es, el modelo sobre aprende los datos de entrenamiento, ciñéndose a ellos, lo que produce que no haya una buena generalización y la clasificación en los nuevos datos de test no sea buena. Por otro lado, si C es muy pequeño, el modelo permitirá muchos errores y no será bueno, produciéndose el conocido underfitting.

Después de estas modificaciones, el problema de optimización obtenido para SVM en el que los datos no son linealmente separables será el siguiente:

(20)

m´ınw,b

1

2||w||²+ CPl i=1ξi

s.t y_i(w · x_i+ b) − 1 + ξ_i ≥ 0 ∀i ξ_i ≥ 0∀i,

(1.2.12)

Por tanto vamos a resolver un problema en el que tratamos de encontrar el m´aximo margen, como en el caso de problemas con datos linealmente separables, pero permitiendo ciertos errores, por lo que Pl

i=1ξ_i se convertirá en una cota superior de los errores que permitimos, ya que para que un error ocurra debe exceder ξ_i y por tanto la suma será una cota para el error total controlado por el parámetro C.

Como en el caso anterior al tratarse de un problema con restricciones obtendremos su funci´on lagrangiana usando la teor´ıa lagrangiana:

L(w, b, α, β) = ¹₂||w||²+ CPl

i=1ξ_i−Pl

i=1α_i[y_i(w· x_i+ b) − 1 + ξ_i] −Pl

i=1β_iξ_i, donde L debe ser minimizada sobre w , ξ_i y b para obtener el dual. Calculamos

∂L w, ^∂L_ξ

i y ^∂L_b e igualamos a cero, obteni´endose las siguientes ecuaciones:

∂L(w, b, ξ, α, β)

w = w −

l

X

i=1

y_iα_ix_i = 0 ⇒ w =

l

X

i=1

y_iα_ix_i

∂L(w, b, ξ, α, β)

ξ_i = C − α_i− β_i = 0 ⇒ 0 ≤ α_i ≤ C

∂L(w, b, ξ, α, β))

b =

l

X

i=1

y_iα_i = 0.

Finalmente obtenemos el siguiente problema dual del problema primal 1.2.12

m´ax

α Θ(α) =P

iα_i− ¹₂P

i,jα_iα_jy_iy_jx_i· x_j

s.t C ≥ α_i ≥ 0 ∀i

P

iα_iy_i = 0

(1.2.13)

y cuyas condiciones KKT son:

α^∗_i(yi(xi· w^∗+ b^∗) − 1 + ξ^∗_i) = 0 C ≥ α^∗_i ≥ 0

β_i^∗ ≥ 0

β_i^∗ξ_i^∗ = 0 ⇒ (C − α^∗_i)ξ^∗_i = 0.

Adem´as, de las condiciones KKT observamos que:

Si α^∗_i = 0 ⇒ ξ_i^∗ = 0 ⇒ y_i(w^∗· x_i+ b^∗) ≥ 1.

(21)

Figura 1.2.2: Ejemplo de banda no lineal

Si C ≥ αi ≥ 0 ⇒ ξ_i^∗ = 0 ⇒ yi(w^∗· x_i+ b^∗) = 1 Si α^∗_i = C y ξ > 0 ⇒ y_i(w^∗ · x_i+ b^∗) = 1 − ξ_i^∗ ≤ 1.

Por tanto, el problema dual de SVM y las condiciones KKT nos permiten definir los vectores soporte como aquellos que están en el margen, es decir, aquellos que α_i 6= 0. En consecuencia, el número de vectores soporte nos dará una idea de la dificultad del problema.

1.2.3. M´ aquinas de Vectores Soporte para Regresi´ on

Como hemos dicho anteriormente la teor´ıa de las Máquinas de Vectores Soporte puede ser extendida a problemas de regresión. El objetivo en este caso es encontrar una función f (x) con una desviación del ”target”yi para todos los datos.

La variable es conocida como la anchura de la banda y es deseable que no tenga un valor muy alto manteniendo un equilibrio con la complejidad del problema. Por tanto vamos a permitir ciertos errores para aquellos valores predichos que estén cerca del valor real. Para ello introducimos el concepto de función de pérdida que permite errores menores que del valor real.

En estos modelos también introducimos la variable de holgura ξ para permitir ciertos errores, que es acompañada por su correspondiente término de regularización C en la función objetivo.

La fórmula 1.2.14 nos da función de pérdida y la figura 1.2.3 y 1.2.3 muestran un ejemplo gráfico de la banda y el parámetro de holgura ξ con una función no lineal y lineal respectivamente.

L(x, y; f ) = |y − f (x)| = max(0, |y − f (x| − ). (1.2.14) En cuanto al valor de , la anchura de la banda, es importante de manera similar a como lo era C en los problemas no linealmente separables. Si la banda es muy grande permitimos mucho error, ya que nuestra predicción estará más ”lejos”del objetivo y_i.

(22)

Figura 1.2.3: Gráfica que muestra cómo influyen ξ y gráficamente.

En cambio si es muy peque˜no permitimos muy poco error y la complejidad del modelo aumenta r´apidamente.

Por tanto existe una relaci´on entre C y a la hora de buscar los par´ametros

´

optimos del modelo. Si C es muy grande también lo será, ya que sino tendr´ıamos modelos muy complicados, en los que se permitirian pocos errores, con riesgo de overfitting. En caso contrario si C es pequeño también deber´ıa serlo, ya que en caso contrario nuestro modelo ser´ıa permisivo con los errores y habr´ıa riesgo de underfitting.

El problema de optimizaci´on primal se reescribe ahora:

m´ınw,b 1

2||w||²+ CPl

i=1(ξ_i+ ˆξ_i) s.t (xi· w + b) − yi ≤ + ξi ∀i

y_i− (x_i· w + b) ≤ + ˆξ_i ∀i ξ_i, ˆξ_i ≥ 0∀i,

(1.2.15)

de donde obtenemos la funci´on lagrangiana:

L(w, b, α) = 1

2||w||²+ C

l

X

i=1

(ξ_i+ ˆξ_i)

+

l

X

i=1

αi[(w· xi+ b) − yi− − ξi]

+

l

X

i=1

ˆ

αi[yi− (w· xi+ b) − − ˆξi]

−

l

X

i=1

(βiξi+ ˆβiξˆi),

y sus derivadas respecto a w, ξ_i, ˆξ_i y b como:

∂L

∂w = w +

l

X

i=1

(α_i− ˆα_i)x_i = 0 ⇒ w = −

l

X

i=1

(α_i− ˆα_i)x_i

∂L

∂ξ_i = C − α_i− β_i = 0

(23)

∂L

∂ ˆξ_i = C − ˆαi− ˆβi = 0

∂L

∂b =

l

X

i=1

(α_i− ˆα_i) = 0.

Finalmente, obtendremos el siguiente problema dual:

m´ax

α 1 2

Pl

i,j( ˆαi− αi)( ˆαj − αj)xi· xj−Pl

iyi( ˆαi− αi) +Pl

i( ˆαi+ αi)

s.t P

i( ˆα_i− α_i) = 0 0 ≤ α_i, ˆα_i ≤ C

(1.2.16)

con sus correspondientes condiciones KKT.

α^∗_i[(w^∗· x_i+ b^∗) − y_i− ξ_i^∗− ] = 0 α^∗_i[y_i− (w^∗· x_i+ b^∗) − ξ_i^∗− ] = 0

α^∗_i ≥ 0 β_i^∗ ≥ 0

β_i^∗ξ_i^∗ = 0 ⇒ (C − α^∗_i) ξ_i^∗ = 0 βˆ_i^∗ξˆ_i^∗ = 0 ⇒ (C − ˆα^∗_i) ˆξ_i^∗ = 0.

Por tanto, el valor de w se obtiene de la ecuaci´on _∂w^∂L = 0, resultando la ecuaci´on:

w^∗ =

l

X

i=1

(α_i− ˆα_i)x_i y el de b con las condiciones KKT.

1.2.4. Proyecci´ on a espacios de alta dimensi´ on

Cuando el problema no es linealmente separable, muchas veces debido a que la dimensión del problema es baja, es necesario proyectar los datos originales a un espacio de dimensión superior o incluso infinita a través de una función φ, donde los datos sean linealmente separables. Por tanto, si el hiperplano separador es f (x) = w · x + b en este caso se convierte en f (x) = φ(w) · x + b, obteniéndose un separador lineal en el espacio proyectado para datos no linealmente separables en el espacio de entrada.

La figura 1.2.4 muestra un ejemplo sencillo de una proyección mediante una función φ : R² −→ R³, es decir, datos en R², donde no son linealmente separables a uno de dimensión 3 donde si lo son.

Calcular el vector proyectado de atributos puede ser computacionalmente muy costoso si la dimensión de los atributos es muy alta, es por ello que mediante la observación de que en la ecuación 1.2.8 sólo aparecen los datos de entrenamiento como un producto escalar, x_i· x_j, podemos utilizar el truco del núcleo. Por tanto en lugar de guardar el vector proyectado completo y después hacer el producto escalar, mediante el uso del truco del núcleo podemos obtener directamente el producto de los vectores proyectados mediante una función de núcleo K, siendo la reserva de memoria menos costosa.

(24)

Figura 1.2.4: Proyecci´on mediante una funci´on φ : R² −→ R³

Definicion 8 (Función de núcleo). Sea X el espacio de entrada, H el de carac- ter´ısticas dotado de un producto interno y una función F : X −→ H, con H espacio inducido de Hilbert, se define la función de núcleo K : X × X −→ R como:

K(x_i, x_j) = φ(x_i)· φ(x_j).

El problema con el que nos encontramos al usar esta técnica es que no cualquier función puede ser usada como núcleo, ya que no es posible encontrar una función K tal que K(x, y) = φ(x) · φ(y). El teorema de Mercer, sacado de?? nos dará las condiciones que son necesarias para cumplir lo anterior.

Teorema 6 (Teorema de Mercer). Si una funci´on escalar k(x_i, x_j) es semidefinida positiva, existe una funci´on

Φ : R^d −→ F,

con F espacio de Hilbert, tal que k(x_i, x_j) puede descomponerse como un producto escalar

k(x_i, x_j) = φ(x_i) · φ(x_j).

Por tanto, necesitamos dar las definiciones de matriz y kernel semidefinidos posi- tivos.

Definicion 9 (Matriz semidefinida positiva). Una matriz sim´etrica de tama˜no n × n es semidefinida positiva si para todo vector x ∈ Rⁿ y x 6= 0, tenemos que

x^TKx ≥ 0.

Definicion 10 (Kernel semidefinido positivo). Una funci´on de kernel k(xi, xj) es semidefinido positivo si para cualquier otra funci´on f ∈ L² tenemos que:

Z

k(x_i, x_j)f (x_i)f (x_j)dx_idx_j.

Para terminar vamos a listar algunos de los n´ucleos m´as utilizados:

(25)

El núcleo lineal es el más sencillo, su expresión es;

k(x_i, x_j) = x_i· x_j.

El n´ucleo gausiano proyecta los vectores a un espacio de dimensi´on infinita y se define como;

k(x_i, x_j) = e−||xi−xj ||2

2σ2 .

Ambos los usaremos en la experimentos númericos de la última sección.

1.2.5. Propiedades de las SVM

Las principales propiedades y ventajas de las M´aquinas de Vectores Soporte y por las que su uso est´a tan extendido son las siguientes:

Tiene una buena generalizaci´on con nuevos datos cuando el modelo est´a bien parametrizado.

El proceso de entrenamiento no depende del n´umero de atributos.

Los modelos dependen de pocos parámetros, C, σ, . Por lo que la metamode- lización es más fácil.

Es un problema de optimización convexa cuadrático. Lo que significa que el m´ınimo es único.

El modelo final suele ser sencillo, simplemente una combinaci´on de un pocos vectores soporte.

1.3. Sequential Minimal Optimization (SMO)

En esta sección vamos a describir el algoritmo Sequential Minimal Optimization (SMO) [4, 8]. Cuando el número de datos que disponemos es muy grande, el problema cuadrático de las SVM puede ser dif´ıcil de resolver con las técnicas estándar descritas anteriormente.

El algoritmo SMO es un método de descomposición en que la idea es elegir subproblemas del problema inicial para que sea menos costoso computacionalmente. En el caso del problema de optimización cuadrática de las SVM implica al menos dos multiplicadores de Lagrange, ya que deben cumplir la restricción Pl

i=1α_iy_i = 0, es decir, los subproblemas que elijamos deben tener al menos tama˜no dos.

Podemos observar que la simplificación de SMO es que permite optimizar anal´ıti- camente. Por tanto, el algoritmo se compone de dos pasos; el primero es una técnica heur´ıstica para elegir los dos mejores multiplicadores; el segundo es una técnica anal´ıtica para optimizarlos.

Como hemos dicho en apartados anteriores, las máquinas de Vectores Soporte resuelven problemas tanto de clasificación como de regresión. En la mayor´ıa de los trabajos, los algoritmos se explican desde el punto de vista de la clasificación, por

(26)

eso en este trabajo vamos a introducir una notación sacada de [4] que nos permita estudiar el algoritmo tanto para clasificación como para regresión.

Si tenemos la muestra S = {(x_i, y_i) : i = 1, ..., N } donde y_i = ±1 para clasifi- cación y R = {(x_i, t_i) : i = 1, ..., N } donde t_i ∈ R para regresión, el problema que queremos optimizar será el siguiente:

P (w, b, ξ) = m´ın

w,b

1

2||w||²+ CPl i=1ξ_i s.t y_i(w · x_i+ b) ≥ p_i− ξ_i ∀i

ξ_i ≥ 0∀i

(1.3.1)

Cuando p_i es 1 tenemos el cl´asico problema de SVM para clasificaci´on.

Para problemas regresi´on redefinimos la muestra R como el triplete S_R = {(x_i, y_i, pi) : i = 1, ..., 2N }, donde.

Para todo i = 1, ..., N , tenemos que y_i = 1 y p_i = t_i− .

Para todo i = N + 1, ..., 2N , tenemos que y_i = −1 y p_i = −t_i− .

Con lo que finalmente su correspondiente problema dual ser´a:

m´ınα D(α) = ¹₂P

i,jα_iα_jy_iy_jx_i· x_j−P

iα_ip_i

s.t α_i ≥ 0 ∀i

P

iα_iy_i = 0

(1.3.2)

Como hemos dicho anteriormente para aplicar SMO debemos actualizar al menos dos coeficientes en cada iteración, estos los denotaremos como L y U . Si queremos elegir el óptimo de L^t y U^t en la iteración t, sus coeficientes en la siguiente serán;

α_L^t+1t = α^t_Lt+ δ^t_Lt

α_U^t+1t = α^t_Ut + δ_U^tt

mientras que el resto de los coeficientes α_j permanecen iguales.

Debido a la restricci´onP

iα_iy_i = 0, la actualizaci´on de uno de los multiplicadores puede ser escrita en funci´on del otro, de tal manera que: δ_U^tt = −y_U^ty_L^tδ^t_Lt

Para elegir los ´ındices U^t y L^t, se usa el criterio conocido en ingl´es como the most violating pair (MVP), es decir U^t y L^t viene determinado por las siguientes ecuaciones.

U^t= arg max

i∈I_U^t

{yi∇D_i^t} L^t= arg min

i∈I_L^t

{y_i∇D_i^t} (1.3.3)

donde

I_L = {i : y_i = +1 ∧ α_i < C} ∪ {i : y_i = −1 ∧ α_i > 0}

(27)

I_U = {i : y_i = +1 ∧ α_i > 0} ∪ {i : y_i = −1 ∧ α_i < C}

Si medimos la diferencia D entre dos iteraciones del algoritmo SMO tenemos que:

D^t− D^t+1 = δ_L^tty_L^t∆^t− (δ^t_Lt)²

2 kx_L^t − x_U^tk² = ψ(δ_L^tt) (1.3.4) siendo ∆^t= w(x_U − x_L)

El objetivo es conseguir la máxima diferencia entre dos iteraciones; esto es fácil de calcular mediante la derivada ψ⁰ = 0 donde ψ es en la ecuación (1.3.4). Por tanto, obtenemos;

δ^t_Lt = y_L^t(y_U^t∇D_U^t) − (y_L^t∇D_L^t)

kx_L^t − x_U^tk² = y_L^t ∆^t kx_L^t − x_U^tk² Si sustituimos la ecuaci´on (1.3.5) en (1.3.4), obtenemos:

D^t− D^t+1 = (y_U^t∇D_U^t − y_L^t∇D_L^t)²

2kx_L^t − x_U^tk² = (∆^t)²

2kx_L^t − x_U^tk² (1.3.5) Por tanto, sin tener en cuenta el denominador, los ´ındices elegidos por la regla MVP ,L^t y U^t, obtenemos el máximo valor D^t− D^t+1, D^t decrece en cada iteración, como quer´ıamos. Es decir la regla MVP coincide con la maximización de D^t− D^t+1.

(28)

(29)

Algoritmos de M´ aquinas de

Vectores Soporte para grandes datos

La elección de este tema está motivada por el creciente interés en la investi- gación de técnicas que nos permitan trabajar con grandes volúmenes de datos y alta dimensionalidad. Cada d´ıa más la cantidad de información disponible aumenta vertiginosamente, aumentando a su vez tanto el número de patrones como la dimensionalidad de los mismos. Por tanto es importante desarrollar más técnicas potentes en este campo.

En esta sección trataremos de discutir las ventajas y desventajas de cada uno de los métodos que vamos a estudiar, estos son; Dual Coordinate Descent method (DCD) [9] y Stochastic Sub-gradient Descent for Primal Problem (Pegasos) [6]. DCD es un método batch que trata mediante un método iterativo de descenso coordinado de encontrar la solución en el problema dual. En cambio Pegasos es un método online que resuelve el problema primal y en el que se alternan dos pasos, un método de descenso por subgradiente aproximado y una proyección sobre un subconjunto.

La diferencia entre el aprendizaje batch y online es que en el aprendizaje batch el gradiente se calcula sobre el error muestral global; es decir, sobre toda la muestra En cambio en el aprendizaje online se calcula un gradiente local sobre el error muestral local; es decir, patrón a patrón. La ventaja del aprendizaje batch frente al online es que las condiciones de convergencia se entienden mejor. En cambio la ventaja del aprendizaje online es que generalmente es más rápido.

Nuestro objetivo, por tanto es encontrar un método eficiente, es decir, que el tiempo empleado para entrenar no sea muy alto y además tengamos una precisión razonable. Como hemos dicho antes, en esta sección vamos a estudiar dos de los principales algoritmos de las Máquinas de Vectores Soporte, Dual Coordinate Descent Method (DCD) y Stochastic Sub-gradient Descent for Primal Problem (Pegasos).

2.1. El m´ etodo Dual Coordinate Descent (DCD)

Como ya se ha anunciado anteriormente, los problemas que encontramos en la vida real no tienen datos linealmente separables, haciendo necesario proyectarlos

19

(30)

mediante una función no lineal φ(x) a un espacio de dimensionalidad superior. Sin embargo, se ha observado que cuando los datos están en un espacio de atributos de alta dimensionalidad, los resultados del algoritmo son parecidos con y sin proyección, con la ventaja de que el tiempo de entrenamiento se reduce considerablemente. El método que vamos a describir a continuación, Dual Coordinate Descent [9], parte de esa observación para implementar su algoritmo.

Se trata de un algoritmo de descenso por coordenadas, que en cada iteracción minimiza un subproblema de una única variable; además resuelve el problema dual.

2.1.1. Algoritmo

DCD puede ser utilizado tanto en clasificaci´on como en regresi´on y en nuestros experimentos vamos a utilizarlo en los dos tipos de problemas. Aunque son parecidos, explicaremos el algoritmo para ambos casos.

Clasificaci´on

Nuevamente el problema que queremos resolver es el problema clásico de las Máqui- nas de Vectores Soporte para clasificación y cuya formulación primal nos es conocida.

Por tanto, tenemos la funci´on objetivo 2.1.1

m´ınw

1

2w^Tw + C

l

X

i=1

ξ(w; x_i, y_i) (2.1.1)

sujeta a ciertas restricciones y donde ξ(w; xi, yi) es la funci´on de p´erdida.

Tras una serie de c´alculos, que hemos desarrollado en el cap´ıtulo 1 mediante la teor´ıa lagrangiana obtenemos el dual de la ecuaci´on del problema (2.1.1) como:

m´ınα f (α) = ¹₂α^TQα − eˆ ^Tα

s.t 0 ≤ α_i ≤ U ∀i, (2.1.2)

donde ˆQ = Q + D, con D matriz diagonal y U = C, D_ii = 0 en L1-SVM. Q_i,j = y_iy_jx^T_i x_j.

El algoritmo Dual Coordinate Descend (DCD) empieza con un punto inicial α⁰ ∈ R^l, tras lo que se genera una secuencia de vectores {α^k}^∞_k=0.

Por tanto, en cada iteracci´on del algotimo necesitamosactualizar α^k,i a α^k,i+1, siendo α^k,i= [α^k+1₁ , ..., α^k+1_i−1, α^k_i, ..., α^k_l], resolveremos el subproblema de una variable:

m´ın

d f (α^k,i+ de_i)

s.t 0 ≤ α^k,i+ d ≤ U, (2.1.3)

donde e_i = [0, ..,0, 1, 0, ..,0]^T.

(31)

En este caso no tenemos la restricci´onP α_ix_iy_i = 0 como en SMO, y por tanto el tama˜no m´ınimo del subproblema elegido puede ser uno.

Podemos observar como la función objetivo del problema 2.1.3 se puede reescribir como una función cuadrática de d:

f (α^k,i+ de_i) = 1 2

Qˆ_iid² + ∇_if (α^k,i)d + cte, (2.1.4) donde ∇_if es la componente i del gradiente total de f , ∇f .

Por tanto, si derivamos e igualamos a cero la ecuaci´on (2.1.4), observamos que tiene un m´ınimo en d = −^∇ⁱ^{f (α}_ˆ ^k,i⁾

Qii y la actualizaci´on en cada paso puede ser expresada como sigue:

α^k,i+1_i = m´ın(m´ax(α^k,i_i − ∇_if (α^k,i) Qˆii

, 0), U ),

si ˆQii > 0. Donde usamos el m´aximo y el m´ınimo para asegurarnos que 0 ≤ α^k,i+1_i =≤

C.

Por tanto el algoritmo se puede describir como sigue a continuaci´on:

Algorithm 1 DCD

Dado α y su correspodiente w =P

iy_iα_ix_i. Mientras α no sea ´optimo:

for n = 1 . . . l do

(1) G = y_iw_ix_i− 1 + D_iiα_i (2)

P G =







m´ın(G, 0) si α_i = 0 m´ax(G, 0) si αi = U G si 0 < α_i < U (3) Si |P G 6= 0|,

ˆ α_i ← α_i

α_i ← m´ın(m´ax(α_i − _ˆ^G

Qii, 0), U ) w ← w + (α_i− ˆα_i)y_ix_i

end for

En resumen, los principales c´alculos que debemos hacer para implementar el algoritmo son ˆQ_ii y ∇_if (α^k,1), que vienen dados por las f´ormulas 2.1.5 y 2.1.6 respectivamente:

Qˆii= x^T_i xi (2.1.5)

∇if (α^k,1) = ( ˆQα)i− 1 =

l

X

j=1

Qˆijαj − 1 =

l

X

j=1

yiyjxixjαj− 1. (2.1.6) Si ˆn es el número de elementos no cero, el coste computacional para hacer cada evaluación del núcleo es O(ˆn), entonces el coste para obtener la componente fila i de la matriz de núcleos será O(lˆn).

(32)

Este coste computacional puede ser reducido en el caso de usar el n´ucleo lineal, ya que definimos w como:

w =

l

X

j=1

y_jα_jx_j, (2.1.7)

y por tanto el gradiente de la f´ormula 2.1.6 viene dado por la f´ormula 2.1.8:

∇f (α) = yiw^Txi− 1 + Diiαi. (2.1.8) Por tanto, si ˆn es de nuevo el número de elementos no cero por patrón, el coste principal del algoritmo para actualizar α_i será evaluar la ecuación 2.1.8; este coste es O(ˆn) Además, para calcular 2.1.8 debemos mantener el gradiente respecto a w y por tanto necesitaremos usar la ecuación 2.1.7, siendo el coste total O(lˆn).

Sin embargo, si el valor actual es ˆαi y queremos obtener αi, podemos mantener w con la siguiente ecuaci´on:

w ← w + (α_i− ˆα_i)y_ix_i (2.1.9) Por tanto, el coste computacional para mantener w por 2.1.9 se reduce a O(ˆn) y el n´umero de operaciones es O(ˆn) para calcular 2.1.8. Finalmente, el coste por iteraci´on, es decir, pasar de α^k a α^k+1 es O(lˆn).

Regresi´on

Como hemos explicado en la sección previa de SVR muchos problemas del mundo real no son de clasificación sino de regresión y por tanto es importante obtener algoritmos que mejoren nuestros resultados para este tipo de problemas. Por esta razón vamos a desarrollar la teor´ıa dada para DCD en clasificación para problemas de regresión. La idea para obtener el algoritmo DCD para regresión es tomada de [10].

Como en el caso anterior necesitamos resolver el siguiente problema de SVR.

m´ınw

1

2w^Tw + C

l

X

i=1

(ξ(w; x_i, y_i) + ˆξ(w; x_i, y_i)) (2.1.10)

sujeto a algunas restricciones donde ξ(w; x_i, y_i) and ˆξ(w; x_i, y_i) son las funciones de p´erdida. Para la ecuaci´on (2.1.10) el problema dual es:

m´ax

α 1 2

Pl

i,j( ˆα_i− α_i)( ˆα_j − α_j)x_i· x_j−Pl

iy_i( ˆα_i− α_i) +Pl

i( ˆα_i+ α_i)

s.t P

i( ˆα_i− α_i) = 0 0 ≤ α_i, ˆα_i ≤ C,

(2.1.11)