Selección de hiperparámetros en máquinas de soporte vectorial.

(1)

Por

Ricardo Henao

[email protected]

Director:

Jorge Eduardo Hurtado G´

omez

ENVIADO EN PARCIAL CUMPLIMIENTO DE LOS REQUERIMIENTOS PARA EL GRADO DE MSC. EN CONTROL Y AUTOMATIZACI ´ON INDUSTRIAL

EN LA

UNIVERSIDAD NACIONAL DE COLOMBIA MANIZALES, COLOMBIA

MAYO 2004

c

(2)

INGENIER´IAS EL ´

ECTRICA, ELECTR ´

ONICA Y COMPUTACI ´

ON

Los abajo firmantes certifican haber leido y recomendado a la facultad

de Facultad de Ingenier´ıa y Administraci´

on la aceptaci´

on de la tesis titulada

“

Selecci´

on de Hiperpar´

ametros en M´

aquinas de Soporte Vectorial

”

por

Ricardo Henao

en parcial cumplimiento de lor requerimientos para el

grado de

Msc. en Control y Automatizaci´

on Industrial

.

Fecha: Mayo 2004

Director:

Jorge Eduardo Hurtado G´omez

Jurados:

Germ´an Castellanos D.

Julio Fernando Su´arez

Oscar Ortega L.

(3)

Autor:

Ricardo Henao

T´ıtulo:

Selecci´

on de Hiperpar´

ametros en M´

aquinas de Soporte

Vectorial

Facultad:

Ingenier´

ıas El´

ectrica, Electr´

onica y Computaci´

on

Grado:

M.Sc.

T´

ermino:

Julio

A˜

no:

2004

Con esta se concede permiso a la Universidad Nacional de Colombia de circular y copiar este trabajo para prop´ositos no comerciales y a discresi´on ante solicitud de individuales o instituciones.

Firma del Autor

EL AUTOR SE RESERVA OTROS DERECHOS DE PUBLICACION Y NI LA TESIS NI EXTRACTOS EXTENSOS DE ELLA PUEDEN SER PUBLICADOS O REPRODUCIDOS EN OTRA FORMA SIN LA AUTORIZACION POR ESCRITO DEL AUTOR.

EL AUTOR CERTIFICA QUE HA OBTENIDO PERMISO PARA EL USO DE CUALQUIER MATERIAL CON DERECHOS RESERVADOS QUE APARECIERE EN LA TESIS (EXCEPTO EXTRACTOS CORTOS QUE UNICAMENTE REQUIEREN UN RECONOCIMIENTO APROPIADO EN EL CASO ESCRITOS ACADEMICOS) Y QUE TAL USO ES CLARAMENTE RECONOCIDO.

(4)

´

_{Indice General}

_IV

´

_{Indice de Tablas}

_VII

´

_{Indice de Figuras}

_VIII

Resumen

IX

Abstract

X

Agradecimientos

XI

1. Introducci´

on

1 1.1. Trabajo Previo . . . .

2 1.2. Objetivos Principales del Trabajo . . . .

4 1.3. Estructura del Documento . . . .

4 2. M´

aquinas de Soporte Vectorial

5 2.1. Clasificaci´

on con Vectores de Soporte . . . .

5 2.2. Caso Linealmente no Separable . . . .

8 2.3. M´

aquinas de Soporte no Lineales . . . .

9 2.4. Capacidad de Generalizaci´

on . . . .

11 2.4.1. Riesgo Actual, Riesgo Emp´ırico y Dimensi´

on VC . . . .

11 2.4.2. La Dimensi´

on VC de las SVM

. . . .

13 IV

(5)

2.5.1. M´

etodo de Descomposici´

on . . . .

18 2.5.2. Selecci´

on del Conjunto de Trabajo y Criterio de Parada . . . .

19 2.5.3. Convergencia del M´

etodo de Descomposici´

on . . . .

22 2.5.4. Soluci´

on Anal´ıtica . . . .

23 2.5.5. C´

alculo de

b

. . . .

26 2.5.6. Contracci´

on . . . .

27 2.5.7. Caching . . . .

29 2.5.8. Complejidad Computacional

. . . .

29 2.6. M´

aquinas de Soporte Multi Clase . . . .

30 3. Selecci´

on de Hiperpar´

ametros en M´

aquinas de Soporte Vectorial

32 3.1. B´

usqueda en Malla . . . .

33 3.2. B´

usqueda en L´ınea . . . .

33 3.2.1. Cota de Radio/Margen para L2 . . . .

35 3.2.2. Cota de Radio/Margen para L1 . . . .

36 3.3. Limitaciones Actuales . . . .

37 4. Estrategias Evolutivas

39 4.1. Adaptaci´

on Arbitraria de Distribuciones Normales . . . .

41 4.2. Adaptaci´

on de la Matriz de Covarianza

. . . .

43 4.3. Trayectoria Evolutiva: Cumulaci´

on . . . .

45 4.4. El Algoritmo (

µ

W

, λ

)-CMA-ES . . . .

46 4.5. Valores para los Par´

ametros Internos . . . .

49 4.6. Limitaciones y Aspectos Pr´

acticos

. . . .

50 5. M´

etodo Propuesto

51 5.1. CMA-ES-SVM . . . .

52 5.2. Caracter´ısticas del CMA-ES-SVM

. . . .

54

(6)

6. Resultados Num´

ericos

56 6.1. Conjuntos Artificiales

. . . .

56 6.1.1. Balanceado . . . .

57 6.1.2. No Balanceado . . . .

58 6.1.3. Damero . . . .

59 6.1.4. Dos Curvas . . . .

60 6.1.5. Dos Anillos . . . .

60 6.1.6. Anillos Cruzados . . . .

62 6.2. Conjuntos Est´

andares . . . .

64 6.3. Conjunto Multi Clase

. . . .

68 6.4. Resultados con Kernel Polinomial . . . .

68 6.5. Conjuntos de Problemas Reales . . . .

69 6.5.1. Identificaci´

on de Voces Patol´

ogicas . . . .

69 6.5.2. Clasificaci´

on de Arritmias en ECG . . . .

70 7. Discusi´

on Final, Sumario y Trabajo Posterior

73 A. Kernels

76 A.1. Kernels Definidos Positivos

. . . .

77 A.2. Reproducci´

on de un Mapeo con Kernel . . . .

77 A.3. Reproducci´

on de un Espacio de Hilbert mediante Kernels . . . .

79 A.4. El Kernel de Mercer . . . .

79 A.5. Ejemplos y Propiedades de Kernels . . . .

81 B. Algoritmo BFGS

83 Ap´

endices

76

(7)

4.1. Par´

ametros defecto para (

µ

W

, λ

) . . . .

49 6.1. Estructura de los conjuntos artificiales . . . .

57 6.2. Resultados para el conjunto balanceado . . . .

58 6.3. Resultados para el conjunto no balanceado

. . . .

59 6.4. Resultados para el conjunto damero

. . . .

61 6.5. Resultados para el conjunto dos curvas . . . .

61 6.6. Resultados para el conjunto dos anillos . . . .

63 6.7. Resultados para el conjunto anillos cruzados . . . .

63 6.8. Estructura de los conjuntos est´

andares . . . .

65 6.9. Resultados para los conjuntos est´

andar . . . .

66 6.10. Resultados para los conjuntos est´

andar. (Continuaci´

on)

. . . .

67 6.11. Estructura de los conjuntos multi clase . . . .

68 6.12. Resultados para conjuntos multi clase . . . .

68 6.13. Resultados para kernel polinomial

. . . .

69 6.14. Estructura del conjunto para identificaci´

on de voces patol´

ogicas . . . .

70 6.15. Resultados para identificaci´

on de voces patol´

ogicas . . . .

71 6.16. Estructura del conjunto para clasificaci´

on de arritmias en ECG . . . .

72 6.17. Resultados para clasificaci´

on de arritmias en ECG . . . .

72

(8)

2.1. Hiperplanos que separan correctamente los datos . . . .

7 2.2. Mapeo del espacio de entrada en otro de dimensi´

on alta . . . .

10 2.3. Soluci´

on anal´ıtica de un problema de optimizaci´

on de dos variables . . . . .

24 4.1. L´ıneas de igual densidad de probabilidad en dos distribuciones normales . .

40 6.1. Izquierda: Conjunto balanceado. Derecha: Conjunto no balanceado . . . . .

57 6.2. Izquierda: Conjunto damero. Derecha: Conjunto dos curvas . . . .

60 6.3. Izquierda: Conjunto dos anillos. Derecha: Conjunto anillos cruzados

. . . .

62 A.1. Problema de clasificaci´

on mapeado con kernel polinomial . . . .

76

(9)

Este trabajo de tesis presenta un nuevo m´

etodo de selecci´

on autom´

atica de hiperpar´

ametros

en maquinas de soporte vectorial utilizando estrategias evolutivas y cotas efectivas del error

de validaci´

on o riesgo emp´ırico. El desarrollo descrito en esta tesis involucra una t´

ecnica

de estrategias evolutivas denominada adaptaci´

on de matriz de covarianza, que a grandes

rasgos reduce el tiempo de convergencia en la medida que un menor n´

umero de evaluaciones

de la funci´

on objetivo son necesarias y que desaleatoriza al m´

aximo el procedimiento para

obtener soluciones m´

as estables. En particular, dos cotas del error de validaci´

on fueron

empleadas, la validaci´

on cruzada como generalizaci´

on del esquema LOO y el

span

como

medida efectiva tanto te´

orica como pr´

actica ya que no necesita m´

ultiples evaluaciones de

la SVM, es continua, posee conexi´

on directa con otras como Radio/Margen y requiere una

carga computacional considerablemente peque˜

na. Adem´

as, permite la posibilidad de

em-plear diferentes funciones kernel debido a que no exige diferenciabilidad en dicha funci´

on,

esquemas multi clase y selecci´

on de m´

ultiples par´

ametros sin tener que reformular

substan-cialmente todo el algoritmo. Por ´

ultimo, los resultados num´

ericos muestran un desempe˜

no

bastante competitivo con las otras t´

ecnicas revisadas en este trabajo.

(10)

This thesis work introduces a new method for automatic hiperparameter selection for

support vector machines using evolutive strategies and validation error or empirical risk

bounds. The actual approach involves an evolution strategy technique designated as

covari-ance matrix adaptation, which in general terms reduces the convergence rates and obtain

steady solutions due to its derandomized nature. In particular, two empirical risk bounds

where used, crossvalidation as generalized LOO scheme and

span

bound because do not

require multiple SVM evaluations, is continuous, and hold direct connection with some

others like Radius/Margin and its computational cost is low as well. Besides, this method

allows a wide variety of kernel functions since do not demand differentiability, multi-class

schemes and multiple parameter selection without substantial reformulation of the entire

algorithm. Finally, the numerical results reveal a competitive performance related to

an-other considered methods within this work.

(11)

El autor quiere agradecer al Profesor Jorge Eduardo Hurtado supervisor de esta tesis, por

sus m´

ultiples sugerencias y apoyo constante no solo durante el tiempo que dur´

o este trabajo

sino desde que estoy trabajando con ´

el. Tambi´

en, al Profesor Germ´

an Castellanos por todo

el apoyo prestado desde que estoy trabajando en investigaci´

on.

Adem´

as, a los profesores S.S. Keerthi, C.J. Lin y N. Hansen por toda la ayuda prestada a

trav´

es de correos electr´

onicos.

Finalmente, Fabian Ojeda y Juan Carlos Ria˜

no por la ayuda prestada con la revisi´

on de

este trabajo y comentarios pertinentes, al grupo de Control y Procesamiento Digital de

Se˜

nales por proporcionar un espacio apropiado para el trabajo de investigaci´

on, incluso

m´

as all´

a del alcance de este trabajo. Los dem´

as supongo saben quienes son.

Esta investigaci´

on fue realizada en el marco de la investigaci´

on “An´

alisis y procesamiento

digital de im´

agenes m´

edicas y se˜

nales bioel´

ectricas” realizada por la Universidad Nacional

de Colombia sede Manizales mediante la orden contractual 472 de 2003 emitida por el

DIMA.

Manizales, Colombia

Ricardo Henao

Julio 22, 2004

(12)

Introducci´

on

“I shall certainly admit a system as empirical or scientific only if it is capable of being tested by experience. These considerations suggest that not the verifiability but the falsifiability of a system is to be taken as a criterion of demarcation. It must be possible for an empirical scientific system to be refuted by experience.”

K. Popper. The Logic of Scientific Discovery (1934, ch. 1, sect. 6)

En el área de reconocimiento de patrones y más espec´ıficamente en la parte de clasificación, las máquinas de soporte vectorial (SVM), se han convertido en los últimos años en una de las técnicas más importantes sobre otras muy populares como: k−ésimo vecino cercano (KNN), redes neu-ronales artificiales (ANN) y árboles de clasificación (CART); dado que su aparato matemático está fundamentado sobre bases muy sólidas [ver Vapnik, 1995] que hacen que posea múltiples ventajas sobre las otras técnicas mencionadas [ver Vapnik, 1998, Schölkopf and Smola, 2002]. Sinembargo, Lin [2003] presenta en perspectiva la posibilidad de hacer que las máquinas de soporte vectorial se conviertan en el principal método de clasificación (según “KDNuggets 2002 Poll 1”, las redes neuronales y los árboles de clasificación permanecen como principales herramientas) argumentando que el problema de las SVM es elmal empleo que se les da probablemente por falta de conocimiento

1_{http:://www.kdnuggets.com, A Site for Data Mining, Knowledge Discovery, Genomic Mining, Web}

Mining.

(13)

de la metodolog´ıa. Lo que usualmente los usuarios desprevenidos están haciendo es (ver blackboard http://www.kernel-machines.org): convertir la información a clasificar al formato de algún progra-ma SVM disponible sin tener en cuenta en la progra-mayor´ıa de los casos las implicaciones del forprogra-mato, escalamiento, etc, para luego tratar aleatoriamente con valores de parámetros y kernels indiscrimi-nadamentesin hacer validación y sin saber de antemano que los parámetros por defecto en dichos programas son sorprendentemente importantes y el hecho es que muchos de los usuarios obtienen como resultado valores de error y generalización insatisfactorias.

Lo m´ınimo que se espera que haga el usuario seg´un Lin [2003] es escalar los datos para validaci´on y entrenamiento, considerar el kernel RBF (Radial Basis Function) y encontrar valores adecuados para C y σ2 _(o _γ_{). Ahora, esto de encontrar}_{“valores adecuados”} _{a veces no es tarea f´}_{acil, sin}

mencionar que lo que se pretende no es encontrar valores adecuados sino los mejores valores para un caso dado. Hasta el momento, las técnicas de selección de parámetros o selección del modelo como también es llamado son las siguientes: búsqueda manual intuitiva, cotas para LOO (leave one out) o para riesgo emp´ırico, búsqueda en dos sentidos y búsqueda en malla.

1.1. Trabajo Previo

En el tema de selección de hiperparámetros en SVM no se ha hecho mucho hasta el momento debido a que es un tema relativamente nuevo, sinembargo el trabajo realizado es bastante significativo. En el trabajo con reconocimiento de patrones y más espec´ıficamente en el área de clasificadores es necesario encontrar medidas que sean proporcionales al error de clasificación (función de riesgo y dimensión VC), es decir, que sean referentes al momento de seleccionar los parámetros en la SVM sin tener que realizar un proceso de validación, que dependiendo del volumen de los datos puede ser prohibitivo en términos de tiempo y recursos computacionales. [Wahba et al., 2000] establece mediante demostraciones matemáticas y pruebas numéricas la consistencia de la validación cruzada (en particular LOO) como medida del error en SVM con relación a medidas de margen en el hiperespacio de SVM. Joachims [2000] realiza pruebas con SVM utilizando como medidas del error: error de entrenamiento, “hold-out testing”, Boostrap, Jack-knife y validación cruzada en contraste a una técnica introducida por el llamada estimadorξαbasada en la solución de losαen el problema dual de SVM y las pérdidas del entrenamiento ξ, obteniendo mejores resultados que validación cruzada y Boostrap en varias bases de datos estándar. Vapnik and Chapelle [2000] introduce el concepto despan de los vectores de soporte como forma de obtener parámetros óptimos en SVM

(14)

por este ser una medida bastante precisa de el error de validación. Jaakkola and Haussler [1999] realiza pruebas matemáticas para llegar a una formulación que genera una cota superior para LOO analizando la solución de la función de costo de SVM. Opper and Winther [2000] utilizan un método inspirado en la teor´ıa de respuesta lineal y prueban que bajo el supuesto de que los vectores de soporte no cambian cuando se remueve un ejemplo bajo el esquema de LOO se puede obtener una matriz de productos punto entre los vectores de soporte que deriva en una cota superior para la estimación del error. Vapnik [1998] propone bajo el supuesto que la solución de SVM no presenta errores de entrenamiento, una cota para el error de validación basada en LOO que es la relación entre el margen y el radio de los vectores de soporte de la máquina entrenada. Keerthi and Ong [2000] hace un análisis del aporte del valor del corrimiento en la formulación de SVM en la optimalidad del entrenamiento. Sundararajan and Keerthi [2001] deriva resultados de la probabilidad surrogativa de Geisser (GPP), error predictivo de Geisser (GPE) y error de validación cruzada para escoger los parámetros del kernel en el caso RBF. Lee and Lin [2001] propone un método de selección automática basada en LOO y una reducción simple del espacio de búsqueda de los hiperparámetros utilizando una descomposición matricial del problema dual de SVM (BSVM). Chapelle et al. [2002] propone una metodolog´ıa fundamentada en la diferenciabilidad del kernel, el criterio de Radio/Margen y su dependencia con la solución del problema de optimización de SVM para derivar un esquema de gradiente descendiente para obtener hiperparámetros óptimos. Keerthi and Lin [2003] hacen un análisis del comportamiento asintótico de los parámetros de SVM con kernel gaussiano y derivan un procedimiento heur´ıstico para encontrarlos y obtener un error de generalización bajo. Keerthi [2002] presenta una implementación del método de Chapelle et al. [2002] utilizando kernel RBF, NPA (algoritmo de punto cercano) como algoritmo de optimización iterativo para SVM, SMO (optimización secuencial m´ınima) para resolver el problema de Radio/Margen y quasi-Newton como procedimiento de gradiente descendiente. Chung et al. [2003] utiliza la cota Radio/Margen con kernel gaussiano para hacer una modificación en el esquema de SVM y derivar a partir de L1-SVM y L2-SVM un método de selección automática de parámetros. Duan et al. [2003] hace una evaluación emp´ırica del desempeño de varias medidas para selección de hiperparámetros, entre ellos: error de validación (como referente), validación cruzada, cota χi−alpha, cota VC (Vapnik-Chervonekis), Span aproximado yD2_k_w_k2_{, utilizando bases de datos est´}_{andar en reconocimiento de patrones.}

(15)

1.2. Objetivos Principales del Trabajo

Las publicaciones reportadas hasta la fecha presentan un marcado interés por encontrar cotas del riesgo emp´ırico de manera que no sea necesario llevar a cabo una validación para evaluar la solución obtenida por una SVM para un problema dado. En la medida en que ha sido posible se han desarrollado métodos de selección automática de hiperparámetros haciendo uso de dichas cotas y métodos de optimización. Con esto, no es parte de esta tesis realizar un trabajo de investigación acerca de las cotas, ni de la forma o caracter´ısticas del espacio de los hiperparámetros o relaciones entre ellos. Teniendo en cuenta las consideraciones anteriores, los objetivos de este trabajo son:

Profundizar en las técnicas actuales basándose en la teor´ıa de SVM con el fin de desarrollar un algoritmo de selección automática de hiperparámetros en SVM con miras obtener un buen desempeño de los clasificadores en cuanto a error de validación y costo computacional.

Analizar las técnicas actuales de selección de parámetros para identificar sus ventajas y desventajas, como base del trabajo a realizar. Investigar acerca de métodos de optimización, búsqueda y parámetros efectivos en SVM para luego desarrollar un algoritmo de selección de hiperparámetros automática que ofrezca ventajas sobre las otras desarrolladas hasta el momento.

Para finalizar, se debe decir que en cuanto a los experimentos num´ericos realizados, las compara-ciones con otras t´ecnicas han de realizarse de acuerdo a las posibilidades y el criterio del autor.

1.3. Estructura del Documento

Partiendo del hecho que se considera primordial que este documento sea lo más compacto y completo posible, en los cap´ıtulos 2 y 4 se presentan respectivamente, los fundamentos teóricos y considera-ciones prácticas de las SVM y la clase de estrategias evolutivas empleadas en este trabajo. En el cap´ıtulo 3 se describen los métodos de selección automática como componentes del marco com-parativo usado para los experimentos en el cap´ıtulo 6. En el cap´ıtulo 5 se describe y se hacen las consideraciones pertinentes con respecto al algoritmo propuesto. El documento termina con un sumario de los resultados obtenidos e ideas para un trabajo posterior, además de un apéndice concerniente a kernels como complemento a los fundamentos teóricos de las SVM.

(16)

M´

aquinas de Soporte Vectorial

Las Máquinas de Soporte Vectorial (SVM), han mostrado en los últimos años su capacidad en la clasificación y reconocimiento de patrones en general. El objetivo de este cap´ıtulo es presentar los fundamentos básicos, tanto teóricos como prácticos de las SVM y soportar su potencial en tareas de clasificación. Intuitivamente, dado un grupo de datos distribuidos en dos clases, una SVM lineal busca un hiperplano de tal manera que la mayor cantidad de puntos de la misma clase queden al mismo lado, mientras se maximiza la distancia de dichas clases al hiperplano. De acuerdo a Vapnik [1995], este hiperplano minimiza el riesgo de clasificaciones erróneas en el grupo tomado para realizar el proceso de validación.

2.1. Clasificaci´

on con Vectores de Soporte

Para un grupo de entrenamiento de tama˜noN compuesto de pares atributo-etiqueta (xi, yi)1≤i≤N,

siendoxi∈Rn yyi∈ {−1,1}, se desea obtener una ecuaci´on para un hiperplano que divida dicho

grupo de entrenamiento, de manera que aquellos puntos con igual etiqueta queden al mismo lado del hiperplano. Esto significa encontrar unwy un btal que

yi(w0xi+b)>0, i= 1, ..., N (2.1)

(17)

Si existe un hiperplano que satisfaga (2.1), se dice que los datos sonlinealmente separables. En este caso,wyb se pueden escalar as´ı,

m´ın

1≤i≤N yi(w

0_x

i+b)≥1

de tal manera, que el punto mas cercano al hiperplano tenga como distancia 1/kwk. Luego (2.1) se puede escribir como

yi(w0xi+b)≥1 (2.2)

as´ı, entre todos los posibles hiperplanos, aquel cuya distancia al punto más cercano es máxima se denomina el “óptimo hiperplano de separación” (OSH). Mientras la distancia al hiperplano óptimo sea 1/kwk, encontrar el OSH equivale a resolver el siguiente problema

m´ın w,b 1 2w 0_w sujeto ayi(w0xi+b)≥1, ∀i (2.3)

La cantidad 2/kwk es llamada “margen” y el hiperplano que maximiza dicho margen, OSH. El margen puede ser visto como una medida de la dificultad del problema, as´ı, entre más pequeño sea el margen más dif´ıcil es el problema; o de otro modo, se espera una mejor capacidad de generalización si el margen es más grande (ver figura 2.1).

Mientrasw0wsea convexo, minimizar la ecuaci´on (2.3) sujeto a (2.2) es posible utilizando multipli-cadores de Lagrange [Burges, 1998]. Seanα={α1, ..., αN} losN multiplicadores de Lagrange no

negativos asociados a (2.2), para minimizar (2.3) se debe encontrar el punto de silla de la siguiente funci´on de Lagrange L(w, b, α) =1 2w 0_w₋ N X i=1 αi[yi(w0xi+b)−1] (2.4)

Para encontrar dicho punto, hay que minimizar la funci´on (2.4) sobre wy b, y luego maximizarla sobre los multiplicadores de Lagrange αi ≥0. El punto de silla debe satisfacer las condiciones de

(18)

Figura 2.1: Hiperplanos que separan correctamente los datos. El OSH de la derecha tiene

un margen mayor por lo tanto se espera una mejor generalizaci´

on

Karush-Kuhn-Tucker (KKT) [Burges, 1998], ∂L(w, b, α) b = N X i=1 yiαi= 0 ∂L(w, b, α) w =w− N X i=1 αiyixi= 0 (2.5)

Substituyendo (2.5) en (2.4) el problema de optimizaci´on apunta ahora a resolver

m´ax N X i αi− 1 2 N X i,j αiαjyiyjx0ixj sujeto a N X i=1 yiαi= 0 yαi≥0, ∀i (2.6)

Esto puede ser logrado utilizando métodos de programación cuadrática estándar [Burges, 1998]. Una vez el vectorα0₌_{_α0

i, ..., α0N} soluci´on de (2.6) ha sido encontrado, a partir de (2.5), el OSH

(w, b) tiene la siguiente forma

w0=

N X

i=1

(19)

mientrasb0 puede ser obtenido a partir de las condiciones de KKT

α0_i[yi(w0xi+b)−1] = 0 (2.8)

Nótese que de la ecuación (2.8), los puntos para los cuales α0_i > 0, satisfacen la desigualdad en (2.2). Geométricamente, esto significa que aquellos puntos son los más cercanos al OSH (ver figura 2.1). Estos puntos juegan un papel importante debido a que son los únicos valores necesarios en la expresión para el OSH (ver ecuación 2.7) y son llamados “vectores de soporte” (SV), por el hecho que dan “soporte” a la expansión dew0.

Dado un vector de soportexi, el par´ametrobpuede ser obtenido de las condiciones KKT como

b0=yi−w00xi

El problema de clasificar un nuevo puntox, es resuelto examinando el signo de w0₀x+b0. Ahora,

considerando la expansión (2.7) de w0, la función de decisión f(x) para el hiperplano puede ser

escrita como f(x) = sign N X i=1 α0_iyix0ix+b !

2.2. Caso Linealmente no Separable

Si los datos son linealmente no separables, buscar un OSH carece completamente de sentido. Con la finalidad de posibilitar las violaciones, se pueden introducir variables “slack” (de relajaci´on)

(ξ1, ..., ξN), para ξi ≥ 0 [Cortes and Vapnik], de manera que la expresi´on (2.2) se puede escribir

como

yi(w0xi+b)≥1 +ξi, ∀i

El prop´osito de las variablesξies permitir puntos err´oneamente clasificados, los cuales correspondan

(20)

generalizado puede ser obtenido como la soluci´on del siguiente problema m´ın w,b 1 2w 0_w₊_C N X i=1 ξi sujeto ayi(w0xi+b)≥1 +ξi yξ≥0, ∀i (2.9)

El primer término es minimizado para controlar la capacidad de aprendizaje del mismo modo que en el caso separable; el segundo término permite mantener bajo control el número de clasificaciones erróneas. El parámetroC es elegido por el usuario de manera que un valor grande es equivalente a asignar una alta penalización a los errores. En analog´ıa con el caso separable, la utilización de multiplicadores de Lagrange deriva en el siguiente problema de optimización,

m´ax N X i αi− 1 2 N X i,j=0 αiαjyiyjx0ixj sujeto a X i yiαi = 0 y 0≥αi≥C, ∀i (2.10)

de la ecuaci´on (2.10) se puede notar que la ´unica diferencia hasta el momento con el caso separable es que ahoraαtiene una cota superiorC.

2.3. M´

aquinas de Soporte no Lineales

El principio de SVM no lineal consiste en mapear el espacio de entrada a un espacio de representación de dimensión alta a través de una función no lineal elegida a priori [Boser et al., 1992], ver figura 2.2.

Sinembargo en este caso, surge un problema computacional, la dimensión del espacio de repre-sentación puede ser muy alta y la dificultad radica en cómo construir un hiperplano de separación en este espacio. La respuesta al problema parte de que para construir dicho hiperplano, el mapeo

(21)

Espacio de entrada

Espacio de representación

Hiperplano óptimo en el espacio de representación

Figura 2.2: La SVM mapea el espacio de entrada en otro de representaci´

on de dimensi´

on

alta y luego construye un OSH sobre este ´

ultimo

m´ax N X i αi− 1 2 N X i,j αiαjyiyjφ(xi)0φ(xj) sujeto a N X i=1 yiαi= 0 y αi≥0, ∀i

de lo anterior, el algoritmo de entrenamiento solo depende de los datos a trav´es de los productos punto en el espacio de representaci´on, esto es, funciones de la formaφ(xi)0φ(xj). Sea dada una

fun-ci´on kernel sim´etricaKtal queK(xi, xj) =φ(xi)0φ(xj), de modo que el algoritmo de entrenamiento

dependa solo deK y el mapeoφno sea usado expl´ıcitamente.

Dadoφ:_Rd_{→ H, el kernel}_K _es_K₍_x

i, xj) =φ(xi)0φ(xj), pero de manera inversa, dado un kernel

K se deben establecer las condiciones para que el mapeo exista. Tales condiciones son aseguradas por las condiciones de Mercer (ver ap´endice A):

Teorema 1 SeaK(x, y)una funci´on sim´etrica continua enL2₍_C₎_{, luego, existe un mapeo}_φ_{y una}

expansi´on, tal que

K(x, y) =

∞

X

i=1

(22)

si y solo si, para alg´ung∈L2₍_C₎_{, tal que}

Z

C×C

K(x, y)g(x)g(y)dxdy≥0 (2.12)

Nótese que para casos espec´ıficos, puede no ser fácil mostrar cuando las condiciones de Mercer son cumplidas, mientras que (2.12) debe mantenerse para algúng∈L2₍_C_{). Sin embargo, es f´}_{acil probar}

que la condici´on se cumple para el kernel polinomialK(x, y) = (x0y)p [ver Burges, 1998]. Los primeros kernels investigados para reconocimiento de patrones fueron los siguientes

Polinomial:K(x, y) = (x0y+c)d_para _{c >}₀

Funci´on de base radial (RBF): K(x, y) =exp(−γkx−yk2_{) para}_{γ >}₀

Sigmoide:tanh(κx0y+ν)

El primero resulta en un clasificador con función de decisión polinomial, el segundo un clasificador con función de base radial y el último un tipo particular de red sigmoidal de dos capas. Para el caso de RBF, el número de centros (número de SV), los centros (SV), los pesos (αi) y el desplazamiento

(b) son generados automáticamente por la SVM en la etapa de entrenamiento y dan excelentes resultados en comparación a la red RBF clásica [Schölkopf et al., 1996]. De la misma forma, para el caso del perceptrón multicapa (MLP), la arquitectura (número de nodos ocultos) es determinada por el entrenamiento de la SVM.

2.4. Capacidad de Generalizaci´

on

En esta sección, se dan algunas bases teóricas que describen la capacidad de generalización de las SVM.

2.4.1. Riesgo Actual, Riesgo Emp´ırico y Dimensi´

on VC

Suponiendo que se tienenN observaciones (xi, yi)1≤i≤N para xi ∈Rn yyi ∈ {−1,1} donde yi es

la etiqueta paraxi, se asume existe una probabilidadP(x, y) para la cual los datos est´an descritos.

(23)

definida como un grupo de posibles mapeosx→f(x, α) donde las funcionesf(x, α) son descritas por los parámetros ajustablesα. Una elección particular deα, genera una “máquina entrenada” en particular. Esto es, por ejemplo, una red neuronal con una arquitectura fija, dondeαcorresponde a los pesos y los desplazamientos, es en efecto una máquina de aprendizaje.

La esperanza del error de validaci´on, para una m´aquina entrenada es por consiguiente [Vapnik, 1995]:

R(α) =

Z ₁

2|y−f(x, α)|dP(x, y)

La cantidadR(α) es llamada riesgo esperado o simplemente “riesgo”. Se llamar´a aqu´ı riesgo actual para enfatizar que es la cantidad en la que finalmente se est´a interesado. El “riesgo emp´ırico”,

Remp(x) est´a definido como la medida de error en un grupo dado de validaci´on:

Remp(α) = 1 2N N X i=1 |yi−f(x, α)|

La cantidadQ((xi, yi), α) = ₂1|yi−f(x, α)| es llamada “p´erdida”. Para el caso descrito aqu´ı, solo

toma valores entre 0 y 1. Si se escoge unη, de manera que 0≤η≤1, luego, con una probabilidad de al menos 1−η, la siguiente cota se mantiene [Vapnik, 1995]

R(α)≤Remp(α) +

s

_h_(log(2_N/h_{) + 1)}₋_log(_η/₄₎

N

dondehes un entero no negativo llamado dimensión de Vapnik-Chervonenkis (VC) y es la medida de la capacidad de la máquina de aprendizaje. El segundo término de la desigualdad es llamado “confidencia VC”, el cual es tan pequeño como la dimensión VC, por lo tanto una forma de controlar

la capacidad de generalización de una máquina es manipular la dimensión VC.

Sea definido un grupo de funciones {f(α)}, tal que para un grupo dado de N puntos, se puedan etiquetar de todas las posibles 2N formas, y para cada etiqueta, un miembro del grupo{f(α)}pueda encontrar la manera de asignar dichas etiquetas. Se dice que este grupo de puntos es fragmentado por el grupo de funciones. La dimensión VC para el grupo de funciones{f(α)}está definido como el número máximo de puntos de entrenamiento que pueden ser fragmentados por{f(α)}.

(24)

2.4.2. La Dimensi´

on VC de las SVM

Primero, se presenta un teorema que establece una cota de la dimensi´on VC para hiperplanos de separaci´on

Teorema 2 Sea X ⊂ _Rn _{un conjunto de vectores,} _∀_x _⊂ _X_, _k_x_k

2 < R. Un subconjunto S de

hiperplanos, tales que∀(w, b)⊂S,

inf

x⊂X|w

0_x₊_b_|_{= 1}

|w| ≤A

tiene una dimensi´on VC acotada por

V Cdim<m´ın(R2A2, n) + 1

De manera que minimizando w0w, también la cota de la dimensión VC para los hiperplanos de separación y, por lo tanto una mejor generalización esperada. Nótese que en el caso de SVM no lineal, este teorema debe ser aplicado sobre el espacio de representación, as´ı, la capacidad de generalización está bajo control, incluso si el espacio es infinito dimensional.

2.4.3. Procedimiento Leave-One-Out

Una manera de predecir el desempeño de generalización de una SVM es estimar la dimensión VC calculando el términoR2_w0_w_{. Otra manera es utilizar un estimador Leave-one-Out (LOO) [Vapnik,}

1998]. Dada una muestra deN+ 1 ejemplos de entrenamiento, el procedimiento para LOO consiste en seguir los siguientes pasos (∀i):

Remover el ejemploxi del grupo de entrenamiento

Entrenar la m´aquina con el nuevo grupo de entrenamiento a fin de obtener losαi

Probar sixi es correctamente clasificado

El número de errores cometidos por la máquina en el procedimiento LOO está denotado porLN+1.

(25)

LN+1= N+1 X n=1 Q((xi, yi), α) La cantidad LN+1

N+1, es la estimaci´on del error de generalizaci´on. Gracias a esto el siguiente teorema

es v´alido

Teorema 3 (Luntz y Brailovsky, 1969) El estimador LOO es no sesgado, esto es

E LN+1 N+ 1 =E(RN)

La esperanza del t´ermino del lado izquierdo es tomada del grupo de entrenamiento de tama˜no

N+ 1 yE(RN) es la esperanza del riesgo actual para OSH construidos sobre la base de un grupo

de entrenamiento de tamañoN. Entonces, para controlar la capacidad de generalización se debe tratar de minimizar el número de errores cometidos en el procedimiento LOO.

Nota 1 Para SVM, el procedimiento LOO se debe realizar solo en los vectores de soporte, los no vectores de soporte serán reconocidos correctamente debido a que un no vector de soporte no afecta la función de decisión.

2.4.4. Cotas para el Estimador de Leave-One-Out

Se muestran aqu´ı, diferentes cotas para el estimador LOO en SVM.

N´

umero de SV

Debido al hecho presentado en la nota 1, se puede restringir la sumatoria solo a los vectores de soporte y luego acotar superiormente cada t´ermino en la suma por 1, de lo cual se obtiene la siguiente cota del n´umero de errores cometidos por el procedimiento LOO [Vapnik, 1995]

T =NSV

N

(26)

Jaakkola-Haussler

Para SVM sin valor de desplazamiento, analizando el proceso de optimizaci´on del algoritmo de SVM cuando se calcula el error LOO, Jaakkola and Haussler [1999] provee la siguiente desigualdad

yp(f0(xp)−fp(xp))≤α0pK(xp, xp) =Up

de la cual se extrae la siguiente cota

T = 1 N N X p=1 Ψ(α0pK(xp, xp)−1)

En [Wahba et al., 2000] se propone una estimaci´on de los errores producidos bajo el esquema LOO, para el cual en el caso de SVM con margen r´ıgido (C=∞) se vuelve

T = 1

N

X

α0pK(xp, xp)

lo cual se puede ver como una cota superior de Jaakkola-Haussler siempre y cuando Ψ(x−1)≤x

parax≥0.

Opper-Winther

En el caso de SVM con margen r´ıgido sin desplazamiento, Opper and Winther [2000] utiliza un m´etodo basado en la teor´ıa de respuesta lineal para probar que bajo el supuesto que un grupo de vectores de soporte no cambia cuando se remueve un ejemplop, se tiene

yp(f0(xp)−fp(xp)) =

α0

p

(K_SV−1)pp

dondeKSV es la matriz de productos internos entre los vectores de soporte y que lleva a la siguiente

(27)

T = 1 N N X p=1 Ψ( α 0 p (K_SV−1)pp −1)

Radio-Margen

Sea que el margen ´optimo es igual a M y que las im´agenesφ(xi) de los vectores de entrenamiento

xi, est´an contenidas en una esfera de radioR. Entonces, el siguiente teorema se mantiene [Vapnik

and Chapelle, 2000]

Teorema 4 Dado un conjunto de entrenamientoZ ={(x1, y1), ...,(xN, yN)}, un espacio de

repre-sentaci´on enHy un hiperplano(w, b), el margen M(w, b, Z)y el radioR(Z)son definidos como

M(w, b, Z) = m´ın (xi,yi)∈Z yi(w0φ(xi) +b) kwk R((Z)) = m´ın a,xi kφ(xi) +ak

El algoritmo de margen m´aximo, LN : (X × Y)N → H ×R toma como entrada el conjunto de

entrenamiento de longitud N y devuelve un hiperplano en el espacio de representación, tal que el margen es maximizado. Nótese que asumiendo que dicho grupo de entrenamiento es separable, entonces M(w, b, Z) > 0. Bajo este supuesto, para todas las medidas de probabilidad P(Z), la probabilidad esperada de clasificación errónea es

perr(w, b) =P(sign(w0φ(X) +b)6=Y) con la cota E{perr(LN−1(Z))} ≤ 1 NE _R2₍_Z₎ M2₍_L₍_Z₎_{, Z}₎ (2.13)

donde la esperanza es tomada sobre un subconjunto aleatorio deZ de longitud N−1 para el lado izquierdo yN para el derecho en (2.13).

Este teorema se ajusta a la idea de construcción de un hiperplano que separe los datos con un margen grande (entre más grande sea dicho margen, mejor sera el desempeño del hiperplano construido).

(28)

De acuerdo al teorema 4, el desempe˜no promedio depende de En_MR22

o

y no simplemente de cuan grande sea el margenM.

Para SVM sin desplazamiento y sin errores de entrenamiento, Vapnik [1998] propone la siguiente cota superior para el n´umero de errores cometidos por LOO

T = 1

N

R2

M2 (2.14)

dondeRyM son respectivamente el radio y el margen definidos en el teorema 4.

Span de los Vectores de Soporte

Vapnik and Chapelle [2000] derivaron otra estimaci´on utilizando el concepto delspande los vectores de soporte. Bajo el supuesto de que los SV permanecen intactos durante el procedimiento de LOO, la siguiente igualdad es cierta

yp(f0(xp)−fp(xp)) =α0pS

2

p

dondeSp es la distancia entre el puntoφ(xi) y la colecci´on Λp, y a su vez,

Λp=    X i6=p , α0 i>0 λiφ(xi), X i6=p λ= 1   

de lo que se obtiene, el n´umero exacto de errores cometidos por LOO bajo el supuesto previo. As´ı, la cota para LOO se define como sigue

T = 1 N N X p=1 Ψ(α0pSp2−1) (2.15)

Adem´as, la estimaci´on delspanpuede ser relacionada con las otras mencionadas con formulaciones simples [Chapelle et al., 2002].

(29)

2.5. Algoritmo de Entrenamiento

Considerando la f´ormula general para la SVM, es decir, no lineal y no separable:

m´ax N X i αi− 1 2 N X i,j αiαjyiyjK(xi, xj) sujeto a N X i=1 yiαi= 0 y 0≤αi≤C, ∀i (2.16)

el m´etodo de descomposici´on es tenido en cuenta considerando la densidad de la matriz kernel

K(xi, xj) de la ecuaci´on (2.11). Buena parte del trabajo al rededor de este m´etodo puede ser

encontrado en [Osuna et al., 1997, Joachims, 1999, Platt, 1999, Saunders et al., 1998].

2.5.1. M´

etodo de Descomposici´

on

Partiendo de la ecuaci´on (2.16) se puede realizar la siguiente representaci´on vectorial:

m´ın α 1 2α 0_Qα₋_e0_α sujeto ay0α= 0 y 0≤αi≤C, ∀i (2.17) dondeQij =yiyjK(xi, xj) ye= 1, ∀i. Algoritmo 1

Dado un n´umero q < N, como tama˜no del conjunto de trabajo, se encuentra α1 _soluci´_on

inicial y se hacek= 1

Siαk _{es la soluci´}_{on ´}_{optima de la ecuaci´}_{on (2.17) se termina, de otro modo se busca un}

con-juntoB ⊂ {1, ..., N}con tama˜no q. Se definenL≡ {1, ..., N}\B,αk_B y αk_L como subvectores deαk _{correspondientes a}_B _{y a} _L_{respectivamente}

(30)

Se resuelve el siguiente problema respecto deαB: m´ın αB 1 2α 0 BQBBαB−(eB+QBLαkL)0αB sujeto a y_B0 αB=−yL0α k L y 0≤(αB)i≤C, ∀i (2.18) donde " QBB QBL QLB QLL #

es una permutaci´on de la matrizQ

Se dejaαk_B+1 como soluci´on ´optima de (2.18) yαk_L+1≡αk

L. Se hacek=k+ 1 y se vuelve al

paso 2

La idea básica del algoritmo de descomposición es que en cada iteración los ´ındices{1, ..., N} del conjunto de entrenamiento, sean separados en dos más pequeñosByL, dondeBes el de trabajo. El vectorαLes fijado de manera que el objetivo sea 12α

0

BQBBαB−(eB−QBLαL)0αB+12α

0

LQLLαL−

e0_LαL. Luego, se resuelve un subproblema respecto deαB,Bes actualizado en cada iteraci´on (n´otese

que para simplificar la notaci´on se utilizaB en vez deBk_{) y el decrecimiento estricto de la funci´}_on

objetivo se sostiene (ver secci´on 2.5.3 referente a la convergencia te´orica del algoritmo).

2.5.2. Selecci´

on del Conjunto de Trabajo y Criterio de Parada

Una de las partes importantes en el algoritmo de descomposici´on es la selecci´on del grupo de trabajo

B. La condici´on de Karush-Kuhn Tucker (KKT) en la ecuaci´on (2.17) muestra que existe un escalar y dos vectores no negativosλyµ, tales que

Qα+e+by=λ−µ

λiαi= 0, µi(C−α)i= 0

λi≥0, µi≥0, ∀i

(2.19)

N´otese que si se escriben las condiciones de KKT para el primario y el dual, resultan ser las mismas y el multiplicador de Lagrange de la restricci´on linealy0α= 0 coincide con el valor de desplazamiento

(31)

Qα+e+by≥0, si α= 0 = 0, si 0< α < C

≤0, si α=C

ahora, utilizandoy=±1, ∀iy asumiendo queC >0, se tiene que

y= 1, αt< C ⇒ (Qα+e)t+b≥0⇒b≥ −(Qα+e)t=−∇f(α)t

y=−1, αt>0 ⇒ (Qα+e)t−b≤0⇒b≥(Qα+e)t=∇f(α)t

y=−1, αt< C ⇒ (Qα+e)t−b≥0⇒b≤(Qα+e)t=∇f(α)t

y= 1, αt>0 ⇒ (Qα+e)t+b≤0⇒b≤ −(Qα+e)t=−∇f(α)t

dondef(α) = 1₂α0Qα+e0αy∇f(α) es el gradiente def(α) enαy considerando

i≡argmax({−∇f(α)t|yt= 1, αt< C},{∇f(α)t|yt=−1, αt>0})

j≡argmin({∇f(α)t|yt=−1, αt< C},{−∇f(α)t|yt= 1, αt>0})

(2.20)

de manera queB={i, j}puede usarse como grupo de trabajo para el subproblema en la ecuación (2.18) del método de descomposición, dondeiy j son los dos elementos que más violan las condi-ciones de KKT. La idea de utilizar dos elementos como grupo de trabajo son tomadas del algoritmo de optimización secuencial m´ınima (SMO) de Platt [1999]. La principal ventaja de esto, es que la solución anal´ıtica de la ecuación (2.17) puede ser obtenida sin la necesidad de un programa de optimización comercial. Nótese que la ecuación (2.20) es un caso especial del método SV Mlight

en Joachims [1999]. Para ser m´as preciso, enSV Mlight_{, si} _α_{es la soluci´}_{on actual del problema, el}

siguiente es resuelto m´ınd∇f(α)0d y0d= 0, −1≤d≤1, dt≥0, siαt= 0, dt≤0, siαt= 0 (2.21) |{dtdt6= 0}|=q (2.22)

n´otese que|{dtdt6= 0}|es el conjunto de componentes ded que no son cero. La restricci´on en la

(32)

componentes deαcon dt diferentes de cero son incluidas en el grupo de trabajoB utilizado para

construir el subproblema en la ecuación (2.18). En efecto,dunicamente se usa para identificar´ By no para encontrar la dirección de búsqueda.

Puede ser visto claramente que siq= 2 la soluci´on de la ecuaci´on (2.21) es

i= argmin{∇f(α)tdt|ytdt= 1; dt≥0, siαt= 0; dt≤0,siαt=C}

j= argmin(∇f(α)tdt|ytdt=−1; dt≥0, siαt= 0; dt≤0,siαt=C}

la cual es igual a la ecuaci´on (2.20) y corresponde a la segunda modificaci´on del algoritmo SMO en Keerthi et al. [1999].

Ahora, se pueden definir

gi≡ ( −∇f(α)i siyi= 1, αi< C ∇f(α)isiyi=−1, αi>0 (2.23) y gj≡ ( −∇f(α)j siyj =−1, αj< C ∇f(α)j siyj= 1, αj>0 (2.24)

De la ecuaci´on (2.21) se tiene que

gi≤ −gj (2.25)

lo cual implica que αes una solución óptima de la ecuación (2.16), de manera que el criterio de parada puede ser escrito e implementado de la siguiente forma como

gi≤ −gj+ (2.26)

(33)

2.5.3. Convergencia del M´

etodo de Descomposici´

on

La convergencia de los métodos de descomposición fue inicialmente estudiada en Chang et al. [2000] sinembargo, no coinciden con las implementaciones existentes. En esta sección, solo se tienen en cuenta resultados de convergencia para el método espec´ıfico de descomposición de la sección 2.5.1.

A partir de Keerthi and Gilbert [2002] se tiene que

Teorema 5 Dado cualquier >0después de un número finito de iteraciones la expresión en (2.26) será satisfecha.

El teorema 5 establece la llamada propiedad de terminación finita, de modo que se tiene la seguridad de que luego de un número finito de pasos el algoritmo terminará.

Teorema 6 Si {αk_} _{es la secuencia generada por el algoritmo de descomposici´}_{on en la secci´}_on

2.5.1, el l´ımite de cualquiera de sus subsecuencias convergentes es solución óptima de la ecuación (2.17).

El teorema 5 no implica el teorema 6 si se considerangjygjen la ecuaci´on (2.26) como funciones de

αque no son continuas. Por consiguiente no se puede tomar el l´ımite en ambos lados de la ecuaci´on (2.26) y afirmar que cualquier punto convergente ya satisface las condiciones de KKT.

El teorema 6 fue inicialmente demostrado como una caso especial de los resultados generales en Lin [2001c] donde algunos supuestos son necesarios. Partiendo de la demostraci´on en Lin [2001a], los supuestos son eliminados, por tanto el teorema es completamente v´alido.

Considerando la convergencia local, debido a que el algoritmo utilizado es una caso especial de uno discutido en Lin [2001b], se tiene el siguiente teorema

Teorema 7 Si Q es definida positiva y el dual del problema de optimizaci´on es degenerado (ver supuesto2 en Lin [2001b]), existe unc <1, tal que luego de que ksuficientemente grande,

f(αk+1)−f(α∗)≤c(f(αk)−f(α∗))

(34)

Con esto, el método de descomposición aqu´ı descrito es linealmente convergente. Los resultados mostrados en esta sección, son válidos para kernels que pueden ser considerados como el producto punto entre dos vectores de caracter´ısticas, esto es, Qes semidefinida positiva. Por ejemplo, para algunos kernels como el sigmoidal (ver ecuación A.5) Q puede no ser semidefinida positiva por tanto la ecuación (2.17) es un problema de optimización no convexo que puede contener varios m´ınimos locales. Sinembargo, con unas pequeñas modificaciones del algoritmo 1 se puede garantizar la convergencia a un m´ınimo local (ver Lin and Lin [2003]).

2.5.4. Soluci´

on Anal´ıtica

Con la selección del grupo de trabajo en la sección 2.5.2, la ecuación (2.18) se convierte en un problema de dos variables

m´ın αi,αj 1 2[αiαj] " Qii Qij Qji Qjj # " αi αj # + (Qi,LαL−1)αi+ (Qj,LαL−1)αj sujeto ayiαi+yjαj = 0≡ −y0Lα k L 0≤αi, αj≤C (2.27)

En Platt [1999] se sustituyeαi poryi(−yL0αL−yjαj) en la funci´on objetivo de la ecuaci´on (2.18)

y se resuelve la minimización sin restricciones respecto aαi, obteniéndose la siguiente solución

αnew_j ≡    αj+ − Gi−Gj Qii+Qjj+2Qij siyi6=yj αj+ Gi+Gj Qii+Qjj−2Qij si yi=yj (2.28) donde Gi≡ ∇f αi yGj≡ ∇f(α)j

Si este último valor está por fuera de de la posible región paraαi, el valor en la ecuación (2.28) es

truncado y asignado aαnew_j . Por ejemplo, siyi=yj yC≤αi+αj ≤2C,αnewj debe satisfacer

(35)

de modo que el m´aximo valor paraαnew

i yαnewj esC. Por consiguiente

αj+ Gi+Gj Qii+Qjj−2Qij ≤L entoncesα_jnew=Ly αnew_i =αi+αj−αnewj =C (2.29)

Esto puede ser ilustrado en la figura 2.3 en la cual se optimiza una función cuadrática sobre un segmento de recta. El segmento de recta es la intersección entre la restricción linealyiαi+yjαj y

las restricciones acotadas 0≤αi yαj≤C.

Figura 2.3: Soluci´

on anal´ıtica de un problema de optimizaci´

on de dos variables

No obstante, la igualdad en la ecuaci´on (2.29) podr´ıa no mantenerse si la operaci´on de punto flotante causara queαi+αj−αnewj =αi+αj−(αi+αj−C) lo cual es diferente deC. Luego, en la mayor´ıa

de los casos, una peque˜na toleranciaαes especificada de manera que todoαi≥C−αes una cota

superior yαi ≤α = 0. Esto ´ultimo es necesario ya que algunos datos podr´ıan ser considerados

erróneamente como vectores de soporte. En adición el cálculo del valor de desplazamiento también necesita corrección para aquellos valores libres deαi (0≤αi≤C).

En Hsu and Lin [2002b] es se˜nalado que si todos losαi obtienen sus valores mediante asignaciones

directas, no es necesario utilizar un valor deα. Para ser m´as precisos, en una operaci´on de punto

flotante siαi←C es asignado, una futura comparaci´on entreαi yC retornar´a verdadero siempre

(36)

Otro peque˜no problema es que el denominador en la ecuaci´on (2.28) puede ser cero. Cuando esto sucede,

Qij =±(Qii+Qij)/2

por lo tanto

QiiQjj−Q2ij=QiiQjj−(Qii+Qjj)2/4 =−(Qii−Qij)2/a≤0

Ahora, considerando queQBB es definida positiva, el denominador cero en la ecuaci´on (2.28) no es

posible. De ah´ı que este problema solo pueda suceder cuandoQsea singular de 2×2. A continuaci´on se discuten dos situaciones en las cuales dicha matriz puede ser singular

La funci´onφno mapea los datos en vectores independientes en el espacio de alta dimensio-nalidad haciendo queQsea solo semidefinida positiva. Por ejemplo utilizando un kernel lineal o polinomial de orden bajo.

Algunos kernels tienen una interesante propiedad por la cualφ(xi)∀(i) son independientes

siempre y cuandoxi6=xj. Un ejemplo de esto es el kernel RBF (ver Micchelli [1986]), debido

a que en muchas situaciones pr´acticas algunosxi son los mismos lo cual implica columnas (o

filas) deQque son exactamente iguales y con esto la posibilidad de queQBBsea singular.

De cualquier manera, incluso si el denominador en la ecuación (2.28) es cero no hay problemas numéricos desde que en la ecuación (2.26) se puede ver que

gi+gj≥

y durante el proceso de iteraci´on

gi+gj =±(−Gi−Gj), siyi6=yj, (y)

(37)

Si la matriz del kernel no es semidefinida positivaQii+Qjj±2Qij puede no ser positiva entonces la

ecuación (2.28) puede no producir una actualización de modo que el valor objetivo sea disminuido. Además el algoritmo puede permanecer en un solo punto quedándose en un ciclo infinito. En Lin and Lin [2003] se estudia este problema en detalle y se propone la siguiente modificación

α_jnew≡    αj+ −Gi−Gj máx(Qii+Qjj+2Qij,0) siyi6=yj αj+ Gi+Gj máx(Qii+Qjj−2Qij,0) siyi=yj as´ı, se garantiza el decrecimiento estricto de la función objetivo.

2.5.5. C´

alculo de

b

Después de encontrar la soluciónαal problema de optimización la variablebdebe ser calculada para ser utilizada en la función de decisión. Las condiciones KKT de la ecuación (2.17) fueron mostradas en la ecuación (2.20). Ahora, para el caso dey= 1 si existenαique satisfagan 0≤αi≤Centonces

se hace,r1=∇f(α)i. Para evitar errores num´ericos, se promedian como

r1=

P

0≤αi≤C,yi=1∇f(α)i P

0≤αi≤C,yi=11 Por otro lado, si no existe talαi, r1 debe satisfacer

m´ax

αi=C,yi=1

∇f(α)i≤r1≤ m´ın

αi=0,yi=1 ∇f(α)i

de donde r1 toma el punto medio del rango. Para yi =−1 un r2 se calcula de manera similar y

luego de que ambosr1yr2 son obtenidos,

−b= r1−r2 2

N´otese que las condiciones de KKT pueden ser escritas como

m´ax

αi>0,yi=±1

∇f(α)i≤ m´ın αi<C,yi=±1

(38)

de modo que el siguiente criterio de parada puede ser utilizado prácticamente: el algoritmo de descomposición para si en la iteraciónαsatisface

máx(− m´ın αi<C,yi=1 ∇f(α)i+ máx αi>0,yi=1 ∇f(α)i, − m´ın αi<C,yi=−1 ∇f(α)i+ máx αi>0,yi=−1 ∇f(α)i)<

donde >0 es una constante elegida como tolerancia de parada.

2.5.6. Contracci´

on

Considerando que en muchos de los problemas prácticos, el número de vectores de soporte libres (0 ≤ αi ≤ C) es pequeño, la técnica de contracción reduce el tamaño del problema de trabajo

sin considerar algunas variables acotadas [Joachims, 1999]. En un punto cercano al final del pro-ceso iterativo, el método de descomposición identifica un posible conjunto A de modo que todos los vectores de soporte libres queden contenidos en él. Para esto, el siguiente teorema muestra que en las iteraciones finales de la descomposición propuesta en la sección 2.5.2 solo las variables correspondientes a un conjunto pequeño tienen la posibilidad de moverse [Lin, 2002]

Teorema 8 Si l´ımk→∞αk = ¯α por el teorema 6, entonces, α¯ es una soluci´on ´optima. Incluso,

cuandok es suficientemente grande, solo los elementos en

{t| −yt∇f( ¯α)t= máx( máx ¯ αi<C,yi=1 −∇f( ¯α)i, máx ¯ αi>0,yi=−1 ∇f( ¯α)i) = m´ın( m´ın ¯ αi<C,yi=−1 ∇f( ¯α)i, m´ın ¯ αi>0,yi=1 −∇f( ¯α)i)

pueden todav´ıa seguir siendo modificados.

por lo tanto, se tiende a pensar que si la variableαi es igual aC para algunas iteraciones, al final

de la solución, ésta permanece como cota superior. De ah´ı que en vez de resolver todo el problema de la ecuación (2.17), se trabaja con uno de menor tamaño

m´ın αA 1 2α 0 AQAAαA−(eA+QALαkL) 0_α A sujeto ay0_AαA=−y0Lα k L y 0≤(αA)i ≤C, ∀i (2.30)

(39)

dondeL={1, ..., N}\A. Sinembargo, esta heur´ıstica puede fallar si la solución de la ecuación (2.30) no es una parte correspondiente a la de la ecuación (2.17). Cuando esto sucede, el problema completo se vuelve a optimizar desde un punto dondeαB es una solución óptima de la ecuación (2.30) yαL

son variables acotadas identificadas antes del proceso de contracción. Nótese que mientras que se está resolviendo el problema de contracción solo se conoce el gradiente QAAαA+QALαL+eA

de la ecuación (2.30). Considerando esto último, cuando se optimiza de nuevo el problema de la ecuación (2.17) se debe reconstruir completamente el gradiente def(α)ilo cual es un tanto costoso

en t´erminos computacionales. Para evitar esto, en vez de iniciar el proceso de contracci´on al final del proceso iterativo, se inicia desde el principio como sigue:

Luego de cada m´ın(N,1000) iteraciones se tratan de contraer algunas variables. As´ı, durante el proceso iterativo,

m´ın({∇f(αk)t|yt=−1, αt< C},{−∇f(αk)t|yt= 1, αt>0}) =−gii

<m´ax({−∇f(αk)t|yt= 1, αt< C},{∇f(αk)t|yt=−1, αt>0}) =gjj

la ecuaci´on (2.25) no se satisface todav´ıa. Entonces, se supone que sigi≤ −giide la ecuaci´on

(2.23) yαtest´a dentro del rango, es muy posible queαtno vuelva a cambiar, por lo tanto se

desactiva esa variable. Similarmente para−gj ≥gjj de la ecuaci´on (2.24) conαt dentro del

rango. De esta manera, el conjunto A de variables activas es din´amicamente reducido cada m´ın{L,1000}iteraciones.

Es claro que la estrategia de contracción arriba mencionada es muy agresiva considerando que el método de descomposición tiene una convergencia lenta y una gran cantidad de las iteraciones es consumida alcanzando el d´ıgito final de precisión requerido, no es deseado que se pierdan iteraciones innecesariamente debido a una contracción errónea. Con esto, cuando el método de descomposición alcanza primero la toleranciagi≤ −gj+10, el gradiente completo

es reconstruido. Luego, basados en la información correcta, se utilizan las ecuaciones (2.23) y (2.24) para desactivar algunas variables y continuar con el método de descomposición.

Como el tama˜no del conjuntoAes din´amicamente reducido, para disminuir el costo computacional del gradiente∇f(α) durante las iteraciones se mantiene siempre

¯

Gi=C

X αj=c

(40)

As´ı, para el gradiente∇f(α)i coni3A se tiene ∇f(α)i= X i=1 Qijαj= ¯Gi+ X 0<αj<C Qijαj, ∀i

2.5.7. Caching

Otra t´ecnica para reducir el costo computacional es el caching. teniendo en cuenta que que Q es completamente densa y puede no ser guardada en la memoria del computador, los elementosQij

son calculados en cuanto sea necesario. Luego, utilizando la idea de almacenamiento de cache se pueden guardar los elementos deQij recientemente usados [Joachims, 1999] haciendo que el costo

computacional de posteriores iteraciones sea menor.

El teorema 8 soporta el uso de caching debido a que en las iteraciones finales, solo algunas columnas de la matrizQ siguen siendo necesitadas de manera que si el cache contiene dichas columnas, se pueden evitar la mayor´ıa de las evaluaciones del kernel para esta etapa.

Para la implementación práctica, se utiliza una estrategia simple consistente en dinámicamente guardar solo las columnas recientes utilizadas de la matrizQAA de la ecuación (2.30).

2.5.8. Complejidad Computacional

La discusión en la sección 2.5.3 es acerca de la convergencia global asintótica del método de descom-posición. En adición, la convergencia lineal (teorema 7) es una propiedad de la tasa de convergencia local. En esta sección, se discute la complejidad computacional del método.

La mayor cantidad de operaciones residen en el c´alculo de QBLαkL+eB y la actualizaci´on de

∇f(αk_{) a}_∇_f₍_αk+1_{). N´}_{otese que}_∇_f₍_α_{) es usada tanto en la selecci´}_{on del grupo de trabajo como}

en la condici´on de parada, de modo que puede considerarse todo junto como

(41)

y

∇f(αk+1) =∇f(αk) +Q:,B(αkb+1−α k

B) (2.32)

dondeQ:,B es la submatriz de Q con ´ındices enB. Esto es, en la k−´esima iteraci´on con∇f(αk)

conocido y la parte derecha de la ecuación (2.31) como constructor del subproblema. Luego de que el subproblema es resuelto, la ecuación (2.32) es empleada para obtener el próximo∇f(αk+1). Como B contiene solo dos elementos y resolver el subproblema es fácil, el costo sustancial reside en el cálculo de Q:,B(αkb+1−α

k

B). La operaci´on en s´ı toma O(2N), sinembargo si Q:,B no est´a

disponible en el cache y cada operaci´on del kernel cuesta O(n) en efecto, cada columna de Q:,B

necesitaO(nN). De manera que la complejidad esiteraciones×O(N) oiteraciones×O(N n) según sea el caso teniendo en cuenta que si se utiliza contracción,N disminuye gradualmente. Desafor-tunadamente, no se sabe mucho acerca de la complejidad del número de iteraciones. Sinembargo, algunos resultados interesantes fueron obtenidos por Hush and Scovel [2003] aunque solo para los métodos de descomposición descritos en Chang et al. [2000].

2.6. M´

aquinas de Soporte Multi Clase

En esta sección se discute el método para SVM multi clase “uno contra uno” [Knerr et al., 1990], en el cualk(k−1)/2 clasificadores deben ser construidos para entrenar pares de diferentes clases. La primera utilización de este método con SVM fue en Friedman [1996], KreSSel [1999]. Para el entrenamiento de las clasesi−ésima y j−ésima se resuelve el siguiente problema binario:

m´ın wij_,bij_,ξij 1 2(w ij₎0_wij₊_CX t (ξ_tij) (wij)0φ(xt) +bij ≥1−ξijt , sixt ∈I (wij)0φ(xt) +bij ≥ −1 +ξtij, sixt ∈J ξ_tij≥0

En la clasificación se utiliza la estrategia de votación de manera que la clase se asigna para cada puntox como la resultante con mayor número de votos o en el caso que dos clases tengan igual número de votos, simplemente la de menor ´ındice.

(42)

La otra t´ecnica m´as usada para SVM multi-clase es “uno contra todos” en la cual se construyen

k modelos binarios entre la clase i−´esima y el resto de las muestras de las otras clases juntas. Sinembargo, no se considera debido a que en la literatura [Weston and Watkins, 1998, Platt et al., 2000] presenta un menor desempe˜no que “uno contra uno”.

Además, si bien se entrenan más clasificadoresk(k−1)/2, cada problema es más pequeño (además relativamente balanceado) haciendo que el tiempo de entrenamiento total no sea mayor al de “uno contra todos”. Algunos detalles comparativos de estas y otras técnicas puede ser encontrado en Hsu and Lin [2002a].

(43)

Selecci´

on de Hiperpar´

ametros en

M´

aquinas de Soporte Vectorial

En el problema de aprendizaje supervisado se toma un conjunto de pares entrada salida y se trata de construir una funci´on f que mapea los vectores de entrada xi ∈ Rn en etiquetas yi ∈

{−1,1}. El objetivo consiste entonces en encontrar unaf ∈ F que minimize el riesgo emp´ıricoRemp

(ver sección 2.4.1) en ejemplos posteriores. Los algoritmos de aprendizaje usualmente dependen de parámetros que controlan el tamaño de la clase F o en la forma como la búsqueda es realizada enF. Actualmente existen varias técnicas para encontrar dichos parámetros. El riesgo emp´ırico o error de generalización puede ser estimado o bien utilizando algunos de los datos no empleados en el entrenamiento (validación de muestra independiente o validación cruzada) o mediante alguna cota dada por el análisis teórico (ver sección 2.4.4).

Usualmente existen múltiples parámetros para ajustar al mismo tiempo, es mas, la estimación del error no es una función expl´ıcita de tales valores de manera que la estrategia natural es una búsqueda exhaustiva en el espacio de los parámetros lo cual corresponde a correr el algoritmo de entrenamiento en cada valor posible previamente almacenado en un vector (sujeto a alguna discretización). Otra manera, es encontrar una metodolog´ıa que automáticamente los ajuste, en el caso de la SVM, tomando ventaja tanto de sus propiedades de formulación como de su algoritmo.

De manera espec´ıfica, los par´ametros de los cuales depende la SVM son: el denotado comoC que

(44)

controla el balance entre la maximización del margen y la penalización del error, as´ı como todos los que aparecen en el mapeo no lineal al espacio de representación o kernel. Como es ampliamente conocido, uno de los factores más importantes en el desempeño de las SVM es la selección de la función kernel, sinembargo, en la práctica muy pocos son utilizados debido a la dificultad inherente en el ajuste de dichos parámetros.

3.1. B´

usqueda en Malla

Esta técnica ha sido utilizada durante los últimos años, aunque nunca fue presentada formalmente. Debido a su simplicidad, es usada ampliamente por muchos investigadores del área de aprendizaje de máquina. Esta procedimiento consiste en construir una malla acotada de vectores de parámetros conteniendo todas las posibles combinaciones en un espacio acotado de búsqueda y para un paso de discretización escogido. Debido a que es necesario utilizar alguna medida del desempeño de la SVM, la validación cruzada denparticiones es usada de modo que el vector de parámetros elegido es aquel para el cual el error de validación sea menor para una tarea en espec´ıfico. La búsqueda en malla para el kernel RBF está dada por la siguiente definición:

Definici´on 9 Para un par de par´ametros de la SVM y el kernel: C y σ respectivamente, con

Cmin,σmin como cotas inferiores,Cmax,σmax como cotas superiores yC∆,σ∆como los pasos de

discretizaci´on, la malla de entrenamiento puede ser construida como sigue:

(Ci, σj) = (Cmin+iCδ, σmin+jσδ) para 0≤i≤ny 0≤j≤m

donden= Cmax−Cmin

C∆ ,m=

σmax−σmin

σ∆ y (Ci, σj)conforman una matriz de tama˜non×m.

Dado que todas las combinaciones son necesarias para calcular una soluci´on, un total de (n+1)(m+ 1) optimizaciones de la funci´on de SVM son empleadas.

3.2. B´

usqueda en L´ınea

Esta t´ecnica inicialmente presentada por Chapelle et al. [2002] emplea el hecho de que la cota de Radio/Margen (ver secci´on 2.4.4) es diferenciable, con el objeto de desarrollar un algoritmo

(45)

“óptimo” para encontrar los parámetros de la SVM partiendo de la idea que la búsqueda exhaustiva en el espacio de parámetros puede ser prohibitiva. Esta metodolog´ıa propone tomar ventaja de propiedades espec´ıficas de la formulación de la SVM para minimizar una cota de la estimación del error de generalización empleando un algoritmo de gradiente descendiente sobre un conjunto de parámetros dados.

Reescribiendo la f´ormula de Radio/Margen dada en la ecuaci´on (2.14) se tiene

LOO≤4R2kwk2 _(3.1)

dondewes la solución de (2.3) yRes el radio de la esfera más pequeña conteniendo todos losφ(xi).

Adem´as, Vapnik [1998] muestra queR2_{es el valor objetivo del siguiente problema de optimizaci´}_on:

m´ın β 1−β 0_Kβ sujeto a 0≤βi , i= 1, ..., l eTβ = 1 (3.2)

sinembargo, debido a que es posible que losφ(xi) sean no linealmente separables no es pr´actico usar

(2.3). Adem´as, unφaltamente no lineal, puede producir f´acilmente sobre entrenamiento. Luego, es mejor resolver una de las siguientes variaciones de (2.9),

m´ın w,b, 1 2w 0_w₊_C N X i=1 ξi L1−SVM (3.3) o m´ın w,b, 1 2w 0_w₊C 2 N X i=1 ξ_i2 L2−SVM (3.4)

De modo que ahora se puede hacer referencia a dos clases de SVM, L1-SVM y L2-SVM respecti-vamente dependiendo si los errores son penalizados lineal o cuadráticamente. A continuación, se describen los métodos de selección para Radio/Margen utilizando L1 y L2.

(46)

3.2.1. Cota de Radio/Margen para L2

Con relaci´on a la formulaci´on para L2-SVM en (3.4) y haciendoK(xi, xj) =zi.zj, el problema de

SVM puede ser convertido a margen r´ıgido como:

m´ın e w 1 2kwek 2 sujeto ayi(w_ei.zi+b)≥0 ∀i (3.5)

dondezi denota la transformaci´on a un espacio de representaci´on modificado dado por:

e

zi.ezj=Ke(xi, xj) =K(xi, xj) + 1

Cδij

conδij = 1, sii=j y 0 en otro caso. As´ı, la expresi´on en (3.1) puede ser volverse a escribir como

se muestra en Vapnik and Chapelle [2000]

LOO≤f(C, σ)_, 1

NR

2

kw_ek2 (3.6)

siendow_ecomo la solución de (3.5). Debido a que (3.6) es diferenciable respecto deC yσ, es apro-piado utilizar alguna de las técnicas basadas en gradiente descendiente, por ejemplo el algoritmo Quasi-Newton para minimizarf(C, σ). El cálculo del gradiente de f(C, σ) requiere quekw_ek2_y_R2

sean conocidos, sinembargo, recientemente Chapelle et al. [2002] provee un resultado bastante útil que hace fácil la obtención de dichos gradientes una vez los duales de (3.4) y (3.2) son resueltos. Con esto último se mantiene que:

∂f ∂C = 1 N[ ∂kw_ek2 ∂C R 2₊_k e wk2∂R2 ∂C ] ∂f ∂σ2 = 1 N[ ∂kw_ek2 ∂σ2 R 2₊_k e wk2∂R2 ∂σ2] ∂kw_ek2 ∂C = X i αi C2 ∂kw_ek2 ∂σ2 =− X i,j αiαjyiyjKe(xi, xj) kxi−xjk2 2σ4 ∂R2 ∂C =− X i βi C2(1−βi) ∂R2 ∂σ2 =− X i,j βiβjKe(xi, xj) kxi−xjk2 2σ4

luego, si kw_ek2_, _R2_, _α_y _β _est´_{an disponibles, el gradiente de} _f₍_{C, σ}_{) es f´}_{acil de obtener. Como es}