6. MODELO NEURONAL DE AMENAZA
6.1 PRE-PROCESAMIENTO DE LA INFORMACIÓN
La metodología de redes neuronales requiere tener la información de forma matricial, en donde las variables están en las filas y en las columnas están las celdas de trabajo (para el Valle de Aburrá, 100m X 100m y para Medellín 50m X 50m) obtenidas de la división del territorio según el procedimiento que se explicó en secciones anteriores. La Figura 31 presenta de forma esquemática el proceso de partición del área de trabajo en celdas; a cada celda de trabajo se le asocian las variables de entrada al modelo.
Como se mostró en el capitulo anterior, hay un geo -procesamiento previo que prepara la información que será presentada a la RNA, de modo tal que se obtenga un valor único por variable dentro de la celda de trabajo. Aprovechando las potencialidades del SIG se hace posible entonces generar una base de datos de la forma que se encuentra representada en la Tabla 8. Nótese que cada celda de trabajo tiene un código numérico que corresponde al valor del atributo de la variable considerada en la celda. Los códigos numéricos de las filas correspondientes a la lluvia indican la proba bilidad de excedencia de los umbrales de 3 días y de 15 días respectivamente.
Tabla 8.
Base de datos suministrada por el SIG para el Valle de Aburrá. BASE DE DATOS SUMINISTRADA POR EL SIG Número Celda 1 2 ,,, n Número Procesos 0 1 ,,, 0 Geología Superficial 11 10 ,,,, 11 Geomorfología 10 9 ,,,, 12 Uso Suelo 15 14 ,,,, 15 Pendiente 5 4 ,,,,, 1 Lluvia 3 días 0,0871 0.0852 ,,, 0,0873 Lluvia 15 días 0.5251 0.0462 ,,, 0.0496Para el ingreso de la información en la RNA, se debe transformar la base de datos suministrada por SIG en una base de datos binaria (ceros y unos), con excepción de la lluvia, la permeabilidad y los procesos que son datos continuos sin embargo se normalizan en un intervalo de cero a uno de forma tal que se mejore su co mpatibilidad con la función de transferencia sigmoide usada. Esta normalización se hace mediante la Ecuación 6. min max min X X X X Xn (6)
Donde: Xn : Valor de variable Normalizada
X : Valor de variable
Xmin : Valor mínimo de la variable
Xmax: Valor máximo de la variable
La Tabla 9 presenta la forma general para el Valle de Aburr á que adopta finalmente la base de datos para entrenamiento de la red neuronal. Nótese que esta matriz se ha expandido a 34 filas debido a que cada atributo tiene más de una categor ía, siendo
necesario abrir una fila para cada una de las categorías existentes. El atributo “procesos” está representado por dos categorías, la primera llamada “procesos cero o uno” se incorpora dentro del conjunto de entrada en el entrenamiento del modelo , indicando si en una celda de trabajo específica ha ocurrido o no algún deslizamiento en el tiempo de recopilación de la base de datos. La segunda categoría, llamada “procesos probabilidad” corresponde a la probabilidad real de ocurrencia semestral de mov imientos en masa calculada para la celda en cuestión. Esta categoría constituyó el llamado vector de “salidas deseadas” y se presenta a la red como el conjunto de respuestas que se pretende sea capaz de predecir. Hay que destacar que la diferencia entre e sta tabla y la que se genera en el momento de trabajar Medellín es el nivel de detalle de la geología y los procesos, que fue mejorada con base en información suministrada por la interventoria de registros propios de la alcaldía de Medellín, y la adición de las variables permeabilidad y curvatura.
Tabla 9.
Estructura final de la base de datos para entrenamiento del modelo neuronal de predicción de amenaza por movimientos en masa en el Valle de Aburrá.El tamaño de la base de datos expandida fue de 34 filas por 115545 columnas para el Valle de Aburrá mediante el uso de celdas de trabajo de 100m x 100m y de 36 filas por 37981 columnas para Medellín con celdas de trabajo de 50m x 50m.
Por último, se subdividió la base de datos en tres conjuntos, uno para entrenami ento, otro para validación y otro para ensayo. El de entrenamiento se construyó con el 50% de los datos. Para el caso estudiado se seleccionaron todas las celdas con numeración impar para conformar este conjunto, el cual es presentado a la red durante el e ntrenamiento para que ésta extraiga las características de las variables de tal forma que pueda descubrir la relación entre ellas, que conduce a un determinado valor de probabilidad de ocurrencia de movimientos en masa. El segundo es el de validación, el c ual se usa durante el entrenamiento para verificar el desempeño del aprendizaje y fue conformado por el 25 % de los datos. Periódicamente el proceso de entrenamiento es suspendido y se le presenta a la red el conjunto de validación. La respuesta de validac ión se compara con la respuesta deseada y se obtiene el error de validación el cual debe presentar una tendencia a disminuir a medida que avanza el proceso de entrenamiento. Si el error de validación entre dos paradas sucesivas permanece constante o aument a, entonces se suspende definitivamente el entrenamiento del modelo. Por último, está el subconjunto de ensayo o test, conformado por el 25 % restante. Este conjunto sólo se presenta a la red una vez finalizado el proceso de entrenamiento y sirve para eval uar su capacidad de predicción o de interpolación. La respuesta de la red al ser simulada con este conjunto sirve para calcular el error de desempeño que es una medida del nivel de precisión del modelo.