Experimento 1B: Entrenamiento Con Características de Entrada Combinadas

3.4. Experimento 1: Variación de Topologías en MLP y CNN

3.4.2. Experimento 1B: Entrenamiento Con Características de Entrada Combinadas

Para la segunda parte del primer experimento, se plantea realizar la combinación de las características extraídas a cada audio. Teniendo en cuenta los elevados tiempos de entrenamiento con características DFT se decidió reducir el número de características a utilizar a 50. De esta manera, la dimensión de la imagen de entrada es de [80x20x1] para segmentos de 1 segundo y [80x199x1] para segmentos de 10 segundos, cuando se combinan característica MFCC-Gamma, mientras que cuando se realizan combinaciones MFCC-DFT, DFT-Gamma, el tamaño de las entradas será de [90x199x1] y [90x20x1], para 10 y 1 segundo, respectivamente. Al combinar los tres tipos de características exploradas, la dimensión de entrada es de [130x20x1] y [130x199x1], para segmentos de 1 y 10 segundos, respectivamente.

En los experimentos anteriores se observó que el aumento del número de coeficientes de un tipo no garantiza un mejor rendimiento en la validación de los modelos implementados. Muestra de ello son los resultados obtenidos con 100 coeficientes DFT, que en ningún caso superaron el rendimiento obtenido por 40 coeficientes gamma. Adicionalmente, el tiempo de entrenamiento aumentaba considerablemente, lo cual presentaba esta alternativa como inviable. Pero en esta parte de la experimentación se combinan diferentes tipos de características con el fin de entregar más información a las redes neuronales y de esta manera, se realice el ajuste de los parámetros con mayor precisión y así obtener mejoras en la validación de los modelos implementados.

Como se observó en los experimentos anteriores, el tiempo de entrenamiento de las topologías feed- forward es menor comparado con las topologías de CNN, es por esto que la experimentación con ANN se realiza con la totalidad de topologías, mientras que con CNN la experimentación se ejecuta con las mejores topologías encontradas en el Experimento 1A.

Resultados Obtenidos con Segmentos de 10 Segundos Redes Neuronales Convolucionales

Debido a los prolongados tiempos de entrenamiento empleados por las CNN, se entrenaron los modelos que ajustan los parámetros entrenables en los menores tiempos y a su vez obtenían los mejores resultados en términos de rendimiento. En este sentido, para combinación de dos tipos de característica se entrenaron dos modelos, el primero consta de 16-32 filtros convolucionales en cada bloque, mientras que el segundo consta de 32-64 filtros en cada bloque. Para la combinación de tres características se entrenó el modelo más sencillo experimentado.

Los resultados de entrenamiento y validación se recopilan en la tabla 3.11, mientras que en la figura 3.13 se muestra solo los rendimientos en validación, en esta se puede observar que los mejores rendimientos se obtienen con la combinación de coeficientes gamma y MFCC,alcanzando el 73,24 % de validación, superando incluso la combinación de tres características en aproximadamente 0,75 % y las combinaciones de otras dos características hasta en un 9,25 %.

Recordando el mejor resultado alcanzado con CNN y los con coeficientes gamma, logró un 66,94 % de rendimiento en validación (tabla 3.2). Nótese que este rendimiento es aproximadamente 6 % inferior comparado con el mejor resultado alcanzado en este experimento (73,24 %) con la topología compuesta por 16-32 filtros por bloque convolucional. Cabe destacar que el tiempo que tarda en entrenar el mejor modelo con características combinadas es de 83 minutos, como se puede observar en la tabla 3.12 y este

10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCC Filtros %Ent %Val %Ent %Val %Ent %Val %Ent %Val 16-32 90 66,42 89 67,98 85 73,24 90 72,49

32-64 82 65,72 83 66,18 82 69,19 – –

Tabla 3.11: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadas y segmentos de 10 segundos.

Figura 3.13: Rendimiento de validación de las topologías de CNN implementadas con segmentos de 10 segundos y características de entrada combinadas. Elaboración propia.

Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min

16-32 90 88 83 133

32-64 238 231 231 –

Tabla 3.12: Tiempos de entrenamiento en minutos de las diferentes topologías de CNN implementadas.

es aproximadamente el doble de tiempo que se tarda con características individuales gamma (42 minutos). En la tabla 3.12 se recopilan los tiempos que toman los modelos en entrenarse, se puede observar que el modelo que ostenta el mejor rendimiento tiene el menor tiempo de entrenamiento, 83 minutos. Los tiempos de entrenamiento son comparables entre topologías cuando se utilizan combinaciones de dos características, ya que la variación en el tamaño de los datos de entrada no es elevada.

En la tabla 3.13 se observa la matriz de confusión de la mejor topología alcanzada. En esta se puede observar que la clase con el menor rendimiento es plaza pública con apenas un 50,87 % de aciertos, sufriendo las mayores confusiones con la clase calle peatonal (24,28 %). El mayor porcentaje de aciertos es conseguido por la clase parque, alcanzando 89,02 %, apenas tiene un 5,2 % de confusión con la clase plaza pública.

Con respecto a los resultados del experimento 1A, tres clases bajan su rendimiento, la clases Bus, Plaza pública y Centro comercial, en aproximadamente un 5 %, 7,5 % y 9 %, respectivamente. Por otra parte la clase Tranvía aumenta su rendimiento en aproximadamente 26 %, alcanzando casi 85 % de aciertos en clasificación.

De igual manera el rendimiento promedio pasó de 66,93 % con características individuales a 73,24 % con la combinación de características gamma-MFCC, esto representa un aumento del 6,3 %.

SALID A 1 69,94 0 0 8,67 0 4,05 5,2 3,47 0 0 2 0,58 75,14 7,51 0,58 0 0 0 0 0,58 4,62 3 0 4,05 64,74 13,87 0 0,58 0 0,58 0 5,2 4 4,05 0 2,31 57,8 0 0,58 1,16 2,31 3,47 1,16 5 0 1,16 0 0 89,02 5,78 0 2,89 4,62 1,73 6 1,73 0 0 0 5,2 50,87 0 3,47 4,62 1,73 7 5,78 0 0 1,73 0 7,51 82,08 3,47 0 0 8 17,92 0 0,58 8,67 1,73 24,28 11,56 75,72 4,05 0,58 9 0 0,58 0 0 0 4,62 0 4,05 82,08 0 10 0 19,08 24,86 8,67 4,05 1,73 0 4,05 0,58 84,97 1 2 3 4 5 6 7 8 9 10 ETIQUETA

Tabla 3.13: Matriz de confusión para la mejor topología de CNN implementada con combinación de características. Elaboración propia

10 Segundos DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCC Neuronas %Ent %Val %Ent %Val %Ent %Val %Ent %Val 50-50 100 58,27 100 58,09 93 59,77 100 62,66 50-100 100 58,21 100 59,25 98 59,54 100 64,91 50-150 100 58,03 100 57,05 96 61,56 100 64,86 100-50 100 60,17 100 58,03 93 60,06 100 65,14 100-100 100 60 100 58,27 98 62,77 100 65,38 100-150 100 59,48 100 58,03 97 62,95 100 66,53 50-50-50 100 55,61 100 54,68 93 56,42 100 62,14 50-100-50 100 55,2 100 55,9 94 58,27 100 62,08 50-100-100 100 56,99 100 56,13 96 58,27 100 63,06 100-50-100 100 55,61 100 55,2 96 59,31 100 63,82 100-100-100 100 58,38 100 55,14 96 58,96 100 63,87

Tabla 3.14: Rendimiento de entrenamiento y validación con MLP para características de entrada combinadas y segmentos de 10 segundos.

Redes Neuronales Feed-Forward

Como se pudo observar en el experimento 1A, los tiempos de entrenamiento de los MLP son bajos, por lo cual es posible entrenar todas las topologías planteadas anteriormente. En la tabla 3.14 se puede observar que el mejor resultado en validación se obtiene con la topología compuesta por tres capas con 100-150-10 neuronas, alcanzando un 66,53 %. Este resultado es comparable con la mejor validación obtenida con un solo tipo de característica y CNN.

Este rendimiento promedio de validación representa una mejora de 11,1 % comparado con el mejor resultado obtenido al entrenar con un solo tipo de característica. Es destacable que ambos resultados se obtuvieron con la misma topología, sin embargo, el tiempo de entrenamiento del modelo con características combinadas es 2,4 veces más alto que el entrenado con características individuales.

En la tabla 3.15 se muestra la matriz de confusión para el mejor resultado en validación, se puede observar que el menor rendimiento es alcanzado por la clase plaza pública con apenas 43,93 % de aciertos, sufriendo la confusión más alta con la clase calle peatonal. Mientras que el mejor resultado se obtiene con la clase centro comercial alcanzando un 83,82 % y teniendo los mayores inconvenientes con la clase

SALID A 1 56,65 0 1,16 8,67 0 6,36 7,51 10,98 0,58 1,16 2 0 81,5 7,51 0,58 1,73 0,58 0 0 1,16 11,56 3 0 6,94 62,43 9,83 1,16 2,31 0 0,58 0 10,4 4 7,51 0,58 10,98 61,85 1,73 4,62 2,89 5,2 2,89 5,2 5 0 0,58 1,16 0,58 81,5 9,25 0 1,16 6,36 4,05 6 4,62 0 2,89 5,2 2,89 43,93 2,31 16,18 5,78 0,58 7 19,65 0 0 3,47 0 5,2 83,82 12,14 0 0 8 9,83 0,58 0 4,05 4,05 16,76 3,47 49,71 3,47 1,73 9 1,73 0,58 1,16 3,47 2,31 8,09 0 2,31 79,77 1,16 10 0 9,25 12,72 2,31 4,62 2,89 0 1,73 0 64,16 1 2 3 4 5 6 7 8 9 10 ETIQUETA

Tabla 3.15: Matriz de confusión para la mejor topología de MLP implementada con combinación de características. Elaboración propia.

1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCC Filtros %Ent %Val %Ent %Val %Ent %Val %Ent %Val

16-64 82 81,71 82 81,36 87 87,31 – –

16-128 82 81,24 82 82,33 87 86,99 – –

32-64 82 82,17 83 82,87 87 87,31 88 87,96

Tabla 3.16: Rendimiento de entrenamiento y validación con CNN para características de entrada combinadas y segmentos de 1 segundo.

aeropuerto, con un 7,51 % de confusión.

Con respecto al experimento 1A, el rendimiento promedio en validación aumentó en aproximadamente 11 %. La clase que experimentó la mayor mejoría fue estación de metro, que pasó de un 30,1 % a 62,43 %. Por otra parte la única clase que disminuyó el porcentaje de aciertos fue la clase calle peatonal, que pasó de un 58,4 % a un 49,71 % en validación.

En las tablas 3.13 y 3.15, se puede observar que en ambos casos la clase plaza pública es la que tiene el menor porcentaje de aciertos y de igual manera sufre las mayores confusiones con la clase calle peatonal.

Resultados Obtenidos con Segmentos de 1 Segundo Redes Neuronales Convolucionales

Con segmentos de 1 segundo, se entrenaron 3 topologías de CNN. Se puede observar en la tabla 3.16 que el mejor rendimiento es obtenido utilizando una combinación de las tres características exploradas, alcanzando un 87,96 % de aciertos en la validación de datos. Este resultado supera en 0,65 % al modelo con el segundo mejor rendimiento (87,31 %), pero el tiempo de entrenamiento del mejor modelo es aproximadamente el doble del segundo modelo, como se puede observar en la tabla 3.17.

Por otra parte, si se comparan los mejores resultados obtenidos con segmentos de un segundo, el modelo entrenado con un solo tipo de característica tiene un rendimiento inferior en un 5,4 % y su tiempo de entrenamiento es 14 minutos más bajo aproximadamente.

En la matriz de confusión de la tabla 3.18 se observa que el menor rendimiento es de 77,78 % de aciertos, para la clase calle peatonal. Este resultado es inferior en 0,52 % comparado con el obtenido con el experimento con un solo tipo de característica, es de destacar que la clase tranvía bajó su rendimiento en el

Filtros DFT-Gamma/min DFT-MFCC/min Gamma-MFCC/min DFT-Gamma-MFCC/min

16-64 279 293 262 –

16-128 631 630 574 –

32-64 372 403 352 538

Tabla 3.17: Tiempo de entrenamiento en minutos con CNN para características de entrada combinadas y segmentos de 1 segundo.

mismo porcentaje. Por otra parte la clase parque tiene un rendimiento de 97,16 %, nuevamente esta clase tiene el mejor rendimiento, mejorando en 2,66 %. Cabe destacar que la clase metro, que en el experimento 1A obtuvo el menor rendimiento, aumentó el porcentaje de aciertos en 14,93 %.

SALID A 1 89,53 0 0 2,84 0,12 2,37 6,19 5,79 0,17 0,23 2 0 93,46 1,97 0,23 0,06 0,17 0 0,06 0,12 2,72 3 0,12 2,84 90,1 4,75 0,23 0,69 0 0,35 0,93 5,38 4 0,93 0,23 2,31 82,64 0,17 0,75 1,39 1,33 1,39 0,69 5 0,17 0,69 0,41 0,98 97,16 3,24 0,06 1,1 2,37 1,1 6 3,13 0,06 0,35 1,85 0,87 82,99 2,08 9,2 4,11 0,75 7 3,01 0 0 1,62 0,12 0,93 87,79 1,97 0,12 0 8 2,95 0,06 0,35 2,72 0,58 4,8 2,43 77,78 1,56 0,17 9 0,06 0,23 0,12 0,93 0,58 3,59 0,06 1,74 89,18 0 10 0,12 2,43 4,4 1,45 0,12 0,46 0 0,69 0,06 88,95 1 2 3 4 5 6 7 8 9 10 ETIQUETA

Tabla 3.18: Matriz de confusión para la mejor topología de CNN implementada con combinación de características.

Redes Neuronales Feed-Forward

En la tabla 3.19 se muestran los rendimientos en entrenamiento y validación, en esta se puede observar que la combinación de características Gamma-MFCC presenta los menores margenes entre los rendimientos, entre un 5 %-10,87 %. En la figura 3.14 se consolidan los resultados obtenidos al entrenar diferentes topologías de red neuronal feed-forward con características de entrada combinadas. Se puede observar que con la unión de características Gamma-MFCC se obtienen los mejores resultados en la validación de los modelos, al contrario de lo que se podría pensar, al combinar las características DFT-Gamma-MFCC los rendimientos son más bajos, pese a que se entrega un mayor número de datos a los modelos, estos no aportan información para la solución del problema.

El mejor rendimiento en la validación de los modelos es de 76,13 %, el cual es 10 % superior comparado con el mejor rendimiento alcanzado en el experimento realizado con una sola característica de entrada. Como en el experimento anterior, los mejores resultados se obtienen con la topología compuesta por cuatro capas con 100-100-100-10 neuronas.

En la tabla 3.20 se muestra la matriz de confusión para el mejor modelo entrenado. Se puede observar que el rendimiento más bajo es de 62,44 % y es alcanzado con la clase plaza pública, esta tiene los mayores problemas con la clase calle peatonal (9,38 %). Por otra parte el mayor rendimiento es de 89,64 % con la clase parque, que con respecto al resultado del experimento 1A, tiene el mayor porcentaje de mejora en su rendimiento que alcanza el 22,16 %. Cabe destacar que el rendimiento de todas las clases aumentó

1 Segundo DFT-Gamma DFT-MFCC Gamma-MFCC DFT-Gamma-MFCC Neuronas Entr Val Entr Val Entr Val Ent Val

50-50 81 60,42 84,23 60,98 77,83 69,85 87 66,83 50-100 85,84 61,83 86,34 62,43 78 73 85 68,87 50-150 86 63,13 86,97 63,54 81,56 73,35 90 70,06 100-50 87 61,59 89,45 62,02 80,67 70,56 90 68,04 100-100 90 62,85 91,44 64,4 83,59 75,5 90 69,47 100-150 89 64,02 91,83 65,39 85 74,22 92 70,81 50-50-50 87,27 62,29 87,79 64,34 79 71,86 92 68,84 50-100-50 88 64,33 89,7 65,17 85 74,6 95 71,07 50-100-100 89,21 64,65 91,77 65,34 85,16 75,62 95 72,01 100-50-100 95 64,42 94,06 64,77 85 75,04 97 71,71 100-100-100 95 66,43 95,72 66,13 87 76,13 97 73,16

Tabla 3.19: Rendimiento de entrenamiento y validación con MLP para características de entrada combinadas y segmentos de 1 segundo.

Figura 3.14: Rendimiento de validación de las topologías de MLP implementadas con segmentos de 1 segundo y características de entrada combinadas. Elaboración propia.

con respecto al experimento anterior, desde un 1,33 % de la clase aeropuerto hasta el 22,16 % de la clase parque.

In document Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales (página 46-51)