Experimentos - Modelos de mezclas de regresiones lineales para computación distribuida

4.1. Conjuntos de datos y algoritmos a utilizar.

En esta sección se presentarán y enumerarán los diferentes conjuntos de datos, as´ı como los algoritmos de optimización desarrollados y los métodos de iniciali- zación del modelo. Además, asignando números a cada algoritmo o conjunto de datos, podemos presentar los resultados de forma más ordenada y menos confusa. En primer lugar, presentaremos los conjuntos de datos sobre los que se llevará a cabo el experimento. Todos ellos son conjuntos de datos cuyas salidas guardan relaciones no lineales con las entradas. Se han utilizado conjuntos de 10.000 mues- tras cada uno para la realización de los experimentos. A continuación, se mostrará una submuestra de 100 datos de cada conjunto y se explicará el procedimiento seguido para su obtención.

Conjunto de datos #1: consistente en dos rectas paralelas sin pendiente y diferente sesgo.

Conjunto de datos #2: consistente en una funci´on sigmoide.

Conjunto de datos #3: consistente una funci´on sinusoidal. Se extiende tres cuartos de su periodo.

Conjunto de datos #4: consistente en el valor absoluto del valor de entrada.

Figura 22: Conjunto de datos #2. Funci´on sigmoide.

Figura 23: Conjunto de datos #3. Tres cuartos del periodo de una funci´on sinusoidal.

Figura 24: Conjunto de datos #4. Valor absoluto.

Además, todos los conjuntos de datos tienen ruido aditivo Gaussiano de media nula. Se ha buscado utilizar conjuntos de datos que pongan a prueba diferentes partes de este trabajo, como la inicialización de los parámetros o las convergencias a buenas soluciones. En estos experimentos, se ha utilizado un número de componentes suficiente como para adaptarse bien a cada uno de los problemas, siendo 2 componentes para los conjuntos de datos #1 y #4 y 3 componentes para #2 y #3. Pasamos ahora a describir los diferentes algoritmos de inicialización con su res- pectiva enumeración.

Inicialización #1: inicialización mediante K-medias y regresiones lineales. Inicialización #2: inicialización mediante un K-medias extra.

Inicialización #3: inicialización mediante K-medias dobles. Inicialización #4: inicialización mediante GMM.

Y por último, los diferentes algoritmos de optimización utilizados. Optimización #1: optimización mediante MBGD estándar.

Optimización #2: optimización mediante filtrado de las responsabilidades. Optimización #3: optimización mediante muestreo con probabilidad propor- cional a las responsabilidades.

Además, para una mayor claridad, utilizaremos las abreviaturas ’Init’ para ini- cialización, ’Opt’ para optimización y ’DS’ para los conjuntos de datos en las tablas de resultados.

4.2. Tiempos de convergencia.

En esta sección, se medirán los tiempos de convergencia de los diferentes algoritmos, tanto de optimización como de inicialización de los parámetros desarrollados a lo largo de este TFG. En el caso de los algoritmos de optimización, se medirán todos con la misma inicialización y semilla, para estar en igualdad de condiciones mientras que para las inicializaciones se tomarán dos medidas: el tiempo que tarda la propia inicialización en llevarse a cabo y el tiempo que tarda en converger el modelo con cada una de ellas una vez inicializado. Para este caso, se utilizará el algoritmo MBGD tradicional como algoritmo de optimización de los pesos.

En la Tabla 1, se encuentran los tiempos relativos a las inicializaciones. En las columnas se encontrarán las medidas para los diferentes conjuntos de datos. En las filas, las inicializaciones, habiendo dos filas por cada algoritmo de inicialización: en una de ellas irá solamente el tiempo de inicialización (indicado como ’Init’) y en la otra el del convergencia del algoritmo tras ser inicializado (indicado como ’LRMM’).

Hay que tener en cuenta también que los tiempos de ejecución son muy va- riables. Por ello, se han realizado 5 mediciones de cada tiempo y tomado el valor medio, excepto en los caso en los que el tiempo era lo suficientemente grande como para poder sacar conclusiones sin necesidad de repetir el experimento más veces.

Tabla 1: Tiempos de convergencia en segundos de los m´etodos de inicializaci´on.

DS #1 DS #2 DS #3 DS #4 Init #1 Init 58,233 92,620 89,637 70,008 Init #1 LRMM 74,284 95,095 125,530 16,397 Init #2 Init 5,612 17,326 12,335 8,231 Init #2 LRMM 5,514 25,912 12,815 18,634 Init #3 Init 4,915 15,347 7,282 6,979 Init #3 LRMM 5,223 17,373 13,556 11,434 Init #4 Init 4,028 6,947 5,818 4,041 Init #4 LRMM 3,077 42,139 15,957 10,148

En la Tabla 2, se encuentran los tiempos de convergencia para los diferentes algoritmos de optimización. Para ello, se han tomado inicializaciones subóptimas aposta - la misma para todos los algoritmos -, para que el algoritmo requiriera de un mayor número de iteraciones, pudiendo as´ı medir mejor las diferencias en los tiempos.

Tabla 2: Tiempos de convergencia en segundos de los algoritmos de optimizaci´on. DS #1 DS #2 DS #3 DS #4

Opt #1 5,132 14,875 14,320 10,176 Opt #2 6,566 22,842 23,552 16,037 Opt #3 12,418 56,413 46,939 30,920

4.3. Prestaciones del modelo.

Para medir la efectividad del modelo para sus diferentes inicializaciones y algoritmos de optimización utilizaremos el MSE. Además, en última instancia se comparará con una SVM con Kernel Gaussiano, para poder comparar los resultados con un algoritmo puntero en la resolución de problemas de regresiones no lineales.

En la Tabla 3, cada columna representa un conjunto de datos diferente, mientras que las filas muestran diferentes tipos de inicialización. En este caso, se utiliza el algoritmo de MBGD para optimizar los pesos en todos los casos. En la Tabla 4, las columnas siguen siendo los diferentes conjuntos de datos, mientras que las filas representan los diferentes algoritmos de optimización. Se utilizarán aqu´ı inicializaciones que se adapten mejor a cada conjunto de datos. Se añadirá aqu´ı una fila con los datos obtenidos por la SVM.

Tabla 3: Prestaciones de las diferentes inicializaciones.

DS #1 DS #2 DS #3 DS #4

Init #1 2,7384 12,5530 5,6293 4,3242 Init #2 2,2689 5,6626 7,4320 0,5698 Init #3 0,8893 5,3972 3,5097 0,5180 Init #4 0,8905 5,5745 3,9671 0,5252

Tabla 4: Prestaciones de los algoritmos de optimizaci´on. DS #1 DS #2 DS #3 DS #4 Opt #1 0,8890 5,3972 3,9711 0,5252 Opt #2 0,8903 5,5950 3,9685 0,5253 Opt #3 0,8893 5,5737 3,9679 0,5252

Tabla 5: Prestaciones de un SVM con Kernel Gaussiano. DS #1 DS #2 DS #3 DS #4

SVM 0,8894 5,1853 3,5102 5,1856

In document Modelos de mezclas de regresiones lineales para computación distribuida (página 55-60)