IMPLEMENTACION NUMERICA DE UNA RED NEURONAL PARA EL MODELO CONSTITUTIVO DEL COMPORTAMIENTO DE MATERIALES

(1)

I

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELECTRÍCA

SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

Implementación numérica de una red

neuronal para el modelo constitutivo del

comportamiento de materiales

T E S I S

QUE PARA OBTENER EL GRADO DE

MAESTRO EN CIENCIAS

CON ESPECIALIDAD EN

INGENIERÍA MECÁNICA

P R E S E N T A :

ING. GERARDO VALENTÍN BAUTISTA CAMINO

DIRECTORES:

DR. LUIS HÉCTOR HERNÁNDEZ GÓMEZ

DR. GUILLERMO URRIOLAGOITIA SOSA

(2)

(3)

(4)

Resumen

En este trabajo se modelan las relaciones de esfuerzo-deformación unitaria de dos comportamientos mecánicos de materiales mediante redes neuronales artificiales de retropropagación. El algoritmo de retropropagación y datos experimentales son utilizados para el entrenamiento de la red.

El primer caso consiste en la implementación de una red neuronal para modelar el comportamiento plástico de un aluminio 7075-T6. A partir de datos experimentales extraídos de la curva de esfuerzo-deformación unitaria, se determinan los elementos que representan el comportamiento del material. En este caso, los estados de historia de carga y el incremento de deformación son las entradas a la red, entregando esta, una salida que predice el incremento de esfuerzo. Con esto es posible reconstruir la curva de esfuerzo-deformación unitaria a partir del conocimiento adquirido por la red. El modelo se prueba bajo diferentes condiciones de incrementos de deformación y es validado con datos experimentales. Los resultados obtenidos coinciden de manera adecuada.

(5)

Abstract

Multilayer perceptron Neural Networks are utilized to model the stress-strain relationships of two material behaviors. The backpropagation algorithm and experimental data are used to train the network.

In the first case, the plastic behavior of a 7075-T6 aluminum is modeled by means of a neural network. The experimental data for training the network is extracted from a stress-strain curve, and relevant information about the material behavior is determined. In this case, the previous states of stress-strain and the strain increment are used as inputs of the network. The output is the stress increment which is predicted by the network. The stress-strain curve is built from the knowledge stored in the Network. The performance of the model is tested under different strain increments and is validated with the experimental data. The results obtained are fairly close to the experimental curve.

(6)

Índice

RESUMEN... II

ABSTRACT...III

ÍNDICE...IV

ÍNDICE DE FIGURAS...VI

ÍNDICE DE CUADROS... VIII

OBJETIVO...IX

JUSTIFICACIÓN...X

INTRODUCCIÓN... XII

CAPÍTULO 1 ANTECEDENTES GENERALES DE LA APLICACIÓN DE LAS REDES NEURONALES ARTIFICIALES EN LA INGENIERÍA MECÁNICA Y LAS RELACIONES

CONSTITUTIVAS DE MATERIALES...1

1.1 INTRODUCCIÓN A LAS REDES NEURONALES ARTIFICIALES (RNA). ... 1

1.2 LAS REDES NEURONALES ARTIFICIALES COMO MODELOS... 3

1.3 APLICACIÓN DE LAS REDES NEURONALES ARTIFICIALES EN LA INGENIERÍA MECÁNICA Y ESTRUCTURAL. ... 6

1.3.1 Ciencia de Materiales. ... 6

1.3.2 Monitoreo e Integridad estructural. ... 7

1.3.3 Identificación estructural. ... 7

1.3.4 Diseño y optimización estructural. ... 8

1.3.5 Inspección cuantitativa no destructiva. ... 8

1.3.6 Control Estructural... 9

1.3.7 Fatiga y crecimiento de grieta. ... 9

1.3.8 Modelado de relaciones constitutivas de materiales. ...10

1.4 MODELADO DE MATERIALES Y LAS REDES NEURONALES ARTIFICIALES...13

1.5 PLANTEAMIENTO DEL PROBLEMA. ...17

1.6 SUMARIO...18

CAPÍTULO 2 MARCO TEÓRICO...19

2.1 CONCEPTOS BÁSICOS DE LAS REDES NEURONALES ARTIFICIALES. ...19

2.1.1 Neuronas Biológicas. ...19

2.1.2 Modelo de una neurona...20

2.1.3 Funciones de transferencia. ...22

2.1.4 Funcionamiento básico y operación de una red neuronal artificial...24

2.1.5 Arquitectura de las RNA...25

(7)

2.2.1 Descripción general. ...30

2.2.2 Algoritmo de entrenamiento...31

2.2.3 Modos de entrenamiento...34

2.2.4 Conjunto de datos de entrenamiento...35

2.2.5 Arquitectura de la RNA de retropropagación...36

2.2.6 Generalización. ...37

2.3 CONCEPTOS BÁSICOS DE PLASTICIDAD...38

2.3.1 Modelos de deformación controlada. ...38

2.4SUMARIO. ...41

CAPÍTULO 3 IMPLEMENTACIÓN DE REDES NEURONALES PARA LA DETERMINACIÓN DE RELACIONES CONSTITUTIVAS...42

3.1METODOLOGÍA GENERAL PARA EL MODELADO CONSTITUTIVO...42

3.2 MODELO DEL CASO 1, PLASTICIDAD. ...46

3.2.1 Determinación de los datos experimentales...46

3.2.2 Selección del algoritmo de entrenamiento. ...46

3.2.3 Diseño de la RNA. ...47

3.2.4 Bases de datos de entrenamiento y validación. ...50

3.2.5 Parámetros de entrenamiento. ...57

3.2.6 Entrenamiento de la RNA. ...57

3.3SUMARIO...59

CAPÍTULO 4 ANÁLISIS DE RESULTADOS...60

4.1 CASO 1 COMPORTAMIENTO PLÁSTICO. ...60

4.1.1 Resultados de entrenamiento. ...60

4.1.2 DISCUSIÓN. ...67

4.1.3 Evaluación de la RNA para el analisis del comportamiento plástico del Aluminio 7075-T6. ...68

4.1.4 DISCUSIÓN...74

CONCLUSIONES...76

RECOMENDACIONES PARA TRABAJOS FUTUROS...78

APÉNDICE A BASES DE DATOS...79

APÉNDICE B CÓDIGO FUENTE DE PROGRAMAS...98

(8)

Índice de figuras

Figura 1.1. Diagrama de flujo de las etapas en la construcción de un modelo físico: en cada

etapa una iteración hacia etapas anteriores puede ser requerida (Ashby 1992). ...15

Figura 2.1. Red neuronal biológica...20

Figura 2.2. Esquema básico de una neurona artificial. ...21

Figura 2.3. Arquitectura de las redes neuronales. ...27

Figura 2.4 Arquitectura de una RNA de una sola capa...28

Figura 2.5 Arquitectura de una RNA multicapas. ...29

Figura 2.6 (a) Apropiada generalización, (b) pobre generalización ...38

Figura 3.1 Metodología para los casos de estudio. ...45

Figura 3.2 Gráfica de esfuerzo deformación unitaria del Aluminio 7075-T6...46

Figura 3.3. Representación de los estados de esfuerzo-deformación unitaria para el entrenamiento de RNA...48

Figura 3.4. Entradas y Salidas en la RNA propuesta. ...49

Figura 3.5 Descomposición de datos de la prueba de tensión. ...51

Figura 3.6 Diagrama de esfuerzo deformación unitaria plástica del Aluminio 7075-T6...52

Figura 3.7 División de la curva de esfuerzo-deformación unitaria plástica del Aluminio 7075-T6 usando un incremento de deformación dekp de 0.02. ...53

Figura 3.8 División de la curva de esfuerzo-deformación unitaria plástica del Aluminio 7075-T6 usando un incremento de deformación dekp de 0.005...54

Figura 3.9 Ejemplo de selección de datos de acuerdo a un dekp especifico...55

Figura 4.1 Fase de entrenamiento de la RNA (7-6-1) G-D, gráfica de convergencia. ...60

Figura 4.2 Distribución de error de la RNA (7-6-1) algoritmo G-D...61

Figura 4.3 Fase de entrenamiento de la RNA (7-6-1) L-M, gráfica de convergencia. ...61

Figura 4.4 Distribución de error de la RNA (7-6-1) algoritmo L-M...62

Figura 4.5 Fase de entrenamiento de la RNA (7-14-1) G-D, grafica de convergencia. ...63

Figura 4.6 Distribución de error de la RNA (7-14-1) algoritmo G-D. ...63

Figura 4.7 Fase de entrenamiento de la RNA (7-14-1)L-M, gráfica de convergencia...64

Figura 4.8 Distribución de error de la RNA (7-14-1) algoritmo L-M. ...64

Figura 4.9 Fase de entrenamiento de la RNA (7-8-6-1)G-D, gráfica de convergencia...65

Figura 4.10 Distribución de error de la RNA (7-8-6-1) algoritmo G-D...65

Figura 4.11 Fase de entrenamiento de la RNA (7-8-6-1) L-M gráfica de convergencia. ...66

Figura 4.12 Distribución de error de la RNA (7-8-6-1) algoritmo L-M...67

Figura 4.13 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.001.69 Figura 4.14 Curva de esfuerzo-deformación experimental vs. RNA, dekp=0.005. ...70

(9)

Figura 4.17 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.08...71 Figura 4.18 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.00144 ...72 Figura 4.19 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.00825 ...72 Figura 4.20 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.0185. ...73 Figura 4.21 Curva de esfuerzo-deformación unitaria experimental vs. RNA, dekp=0.0565. ...73

Figura 4.22 Curva de esfuerzo-deformación unitaria experimental vs. RNA, p

k

de =0.097.74

(10)

Índice de cuadros.

Tabla 2.1 Funciones de transferencia (Hagan, Demuth et al._1996)...22

Tabla 3.1 Valores máximos y mínimos correspondientes a la base de datos. ...56

Tabla 4.1 Sumario de resultados en la etapa de entrenamiento. ...67

Tabla A1. Base de datos de la curva esfuerzo deformación del aluminio 7075-T6...79

Tabla A2. Base de datos de la curva esfuerzo deformación plástica del aluminio 7075-T6. ...81

Tabla A3. Base de datos de entrenamiento para el Aluminio 7075-T6. ...83

Tabla A4. Base de datos de validación para el Aluminio 7075-T6...87

Tabla A5. Base de datos de entrenamiento normalizada para el Aluminio 7075-T6. ...90

(11)

Objetivo.

Modelar las relaciones de esfuerzo deformación que describen el comportamiento elasto-plástico de materiales mediante el uso de datos experimentales y la implementación de redes neuronales artificiales.

Considerando lo anterior, los objetivos secundarios son:

· Establecer la teoría del funcionamiento de las redes neuronales artificiales y su aplicación actual en la Ingeniería Mecánica.

· Definir y exponer los conceptos necesarios que justifiquen el uso de las redes neuronales artificiales para el modelado de las relaciones constitutivas de los materiales.

(12)

Justificación.

El modelo constitutivo de un material es fundamental en el proceso de diseño de un elemento mecánico, ya que en base a este se puede predecir el comportamiento del elemento en operación. Este modelo, establece las relaciones de esfuerzo-deformación unitaria de un material sometido a agentes externos como cargas estáticas, cargas cíclicas y dinámicas.

Los modelos constitutivos convencionales son formulados mediante relaciones matemáticas planteadas con la teoría de la elasticidad y plasticidad entre otras, que intentan describir el comportamiento real del material observado en pruebas experimentales.

Estas relaciones matemáticas son muy difíciles de formular o implementar en los casos donde existe una gran cantidad de variables externas, de las cuales depende el comportamiento del material. Además las relaciones entre estas variables son altamente no lineales, y debido a que son aproximaciones numéricas, inevitablemente contienen errores y están limitadas a la formulación matemática explicita.

Esto, es una gran dificultad, sobretodo si se toma en cuenta que actualmente se utilizan con mayor frecuencia materiales de nueva generación en el diseño elementos mecánicos, entre ellos los materiales biocompatibles, materiales compuestos, polímeros, cerámicos, materiales con memoria de forma y en general materiales cuyo comportamiento mecánico es complejo. A esto se suman las condiciones de operación que son cada vez más severas (alta temperatura, cargas cíclicas, etc.), lo que dificulta en gran medida realizar el modelado del material, por lo tanto se necesitan alternativas que puedan llevar a realizar modelos más exactos y con menores dificultades.

(13)

computacionales con la capacidad de aprendizaje y almacenamiento de conocimiento. No requieren de una gran cantidad de recursos de cómputo lo que les permite ser utilizadas para el modelado de relaciones no lineales complejas y ser entrenadas directamente con resultados obtenidos de experimentos. De esta manera, se evita el uso de formulaciones matemáticas explicitas para modelar las relaciones de entrada-salida del sistema. Si los datos proporcionados contienen suficiente información relevante del comportamiento del material, entonces la red neuronal será capaz de generalizar a casos no aprendidos.

Así, las redes neuronales artificiales ofrecen una ventaja en aquellos problemas donde existe una gran dificultad de realizar un modelo matemático o en donde el modelo matemático resulta difícil de resolver.

(14)

Introducción.

Se sabe que los cuerpos sólidos presentan un comportamiento elástico, solamente si las cargas aplicadas generan esfuerzos menores al de cedencia. Bajo el efecto de cargas substancialmente grandes, los sólidos comienzan a presentar deformaciones inelásticas. Estas son variadas y dependen del material de estudio y las condiciones de operación (temperatura, duración de las cargas entre otras). El comportamiento de los metales bajo condiciones de temperatura ambiente es distinto, que si operan en condiciones de alta temperatura, en este último caso estos comienzan a experimentar deformaciones plásticas que se incrementan con el tiempo. Esto se conoce como el comportamiento de Fluencia.

El análisis de cuerpos sólidos que presentan comportamientos inelásticos a tomado gran importancia práctica en los procesos de manufactura en frió (rolado, forjado, corte). En el análisis de elementos estructurales cuando las cargas sobrepasan el comportamiento elástico, y en el análisis de fatiga de bajo ciclaje etc. Por lo cual existe una necesidad de realizar análisis elasto-plásticos de sólidos deformables.

Con el objetivo de llevar a cabo estos análisis, es necesario conocer el comportamiento del material en el rango inelástico. Los modelos constitutivos describen la relación que existe entre el esfuerzo y la deformación unitaria, para el caso de comportamientos inelásticos, esta relación es no lineal.

(15)

Una alternativa para superar en parte estas dificultades, se propone en este trabajo de tesis, mediante la implementación de redes neuronales artificiales para modelar las relaciones no lineales de esfuerzo deformación.

Una red neuronal artificial es capaz de aprender las relaciones que existen entre un patrón de entrada y uno de salida sin necesidad de establecer una formulación matemática que los relacione. Este conocimiento aprendido se almacena dentro de la red y sus conexiones y está disponible para su uso. Estas capacidades se intentan aprovechar para establecer un modelo constitutivo con base en redes neuronales artificiales.

Para este efecto, esta tesis contiene cuatro capítulos.

En el Capítulo 1 se presenta el papel de las redes neuronales artificiales como una alternativa nueva de procesamiento de información, se exponen sus capacidades, beneficios y desventajas. Finalmente se presenta una breve revisión de la aplicación de las redes neuronales artificiales en la Ingeniería Mecánica. Con base en lo anterior se plantea el problema a resolver en este trabajo.

En el Capítulo 2 se presentan los conceptos teóricos sobre las redes neuronales artificiales, se explica en forma breve su funcionamiento, arquitecturas, modos de aprendizaje y su formulación matemática. De igual forma se expone el algoritmo de entrenamiento de retropropagación. Finalmente se presentan los conceptos básicos de plasticidad y plasticidad cíclica.

(16)

(17)

CAPÍTULO 1

Capítulo 1 Antecedentes generales de la

aplicación de las redes neuronales

artificiales en la Ingeniería Mecánica y las

relaciones constitutivas de materiales.

1.1 Introducción a las Redes Neuronales Artificiales (RNA).

En las últimas décadas se ha logrado un enorme avance en los sistemas de cómputo, su capacidad de procesamiento y cálculo se desempeñan de una forma bastante eficiente en la resolución de diversos problemas que requieren gran poder de cálculo, manejo de grandes cantidades de información y en general cualquier actividad que pueda ser modelada y programada posteriormente. Sin embargo, muy a pesar de este gran avance, los sistemas de cómputo tradicionales son incapaces aun de reconocer objetos, sonidos o imágenes de la forma en la que el cerebro biológico lo hace, carecen de la capacidad de aprendizaje, razonamiento y son sistemas rígidos que están sujetos a algoritmos de programación proporcionados por el ser humano.

A diferencia de las computadoras actuales que trabajan de forma secuencial, existe una máquina de procesamiento que opera diferente y es el cerebro biológico. Este es un sistema de procesamiento de información altamente complejo, no lineal y que procesa la información de forma paralela. Es capaz de interpretar información difusa e imprecisa por lo sentidos a una velocidad mucho mayor que cualquier computadora que exista a la fecha. Esto lo hace organizando su estructura interna constituida por neuronas.

(18)

llamamos “experiencia” y a través de los años se mantiene este aprendizaje, creando nuevas reglas y adquiriendo nuevas experiencias.

Debido a las asombrosas capacidades del cerebro, al deseo del hombre de emular la naturaleza y a la necesidad de contar con sistemas de cómputo más poderosos y con mejores capacidades, desde hace más de 50 años se ha venido desarrollando la teoría de las redes neuronales artificiales.

Las redes neuronales artificiales son sistemas de procesamiento de información cuya estructura y funcionamiento están inspirados en los sistemas neuronales biológicos.

Una red neuronal artificial está constituida por pequeñas unidades de procesamiento interconectadas entre si, por conexiones que tienen un valor modificable numérico llamado peso. Cada unidad es capaz de realizar pequeñas operaciones que contribuyen al estado general de la red, a esta unidad se le llama “neurona” que al igual que en el cerebro es la unidad básica de procesamiento.

En términos generales una red neuronal artificial es una máquina de procesamiento diseñada para modelar la forma en la cual el cerebro realiza una tarea. Una definición general de lo que es una red neuronal se muestra a continuación (Haykin 1999):

Una red neuronal es un procesador masivo, distribuido paralelamente,

constituido de unidades de procesamiento, las cuales tiene la capacidad para

almacenar conocimiento experimental y tenerlo disponible para su uso. Esta

emula al cerebro en los siguientes aspectos:

· El conocimiento es adquirido por la red desde su entorno a través de un

(19)

CAPÍTULO 1

El poder de las redes neuronales radica básicamente en la capacidad de su estructura para el procesamiento en paralelo (procesamiento de datos en masa) y al mismo tiempo, en la habilidad de aprender y generalizar. Esto se refiere a que la red neuronal es capaz de generalizar reglas aprendidas de los casos en los que ha sido entrenada y posteriormente aplicarlas a casos no aprendidos. Estas habilidades permiten a las redes neuronales artificiales resolver problemas complejos de gran escala que actualmente son inatacables.

Las aplicaciones más exitosas en la actualidad de las RNA son:

· Procesamiento de imágenes y voz. · Reconocimiento de patrones. · Planeación y estrategia. · Predicción.

· Control y optimización. · Procesamiento de señales.

Las RNA son una teoría que aún está en proceso de desarrollo. Su verdadero potencial aún no ha sido alcanzado y aunque las redes neuronales artificiales tan solo son una emulación simple de sus contrapartes biológicas, hasta el momento han brindado una alternativa a la computación clásica para aquellos problemas en los cuales los métodos tradicionales no han podido entregar resultados satisfactorios.

1.2 Las Redes Neuronales Artificiales como modelos.

Los sistemas de cómputo son parte integral de la actividad realizada en la Ingeniería y son usados para modelar y resolver un gran número de problemas.

(20)

problema están bien definidas y son perfectamente conocidas. Sin embargo, en la práctica existen muchas situaciones donde no existen modelos bien definidos o donde las reglas para definir esos modelos son extremadamente difíciles de descubrir y establecer, tales problemas no pueden ser modelados usando técnicas de computación tradicionales.

Si se toma en cuenta que los Ingenieros frecuentemente se enfrentan a problemas donde la información está incompleta, es difusa o donde existe conocimiento empírico difícil de modelar, entonces las redes neuronales artificiales se presentan como una alternativa bastante prometedora.

Las redes neuronales artificiales han sido recientemente usadas para modelar algunas actividades en muchas áreas de la ciencia y la ingeniería. Una de las características distintivas de estas, es su habilidad para aprender de la experiencia y ejemplos proporcionados, y posteriormente adaptarse a situaciones cambiantes.

De esta manera, una RNA es capaz de aprender las relaciones presentadas de entra–salida sin necesidad de conocer el modelo o las reglas que lo gobiernan. Estas relaciones pueden ser lineales o no lineales. Las RNA son capaces de mapear modelos obtenidos de causa y efecto para predecir o estimar, o mapear del efecto a la posible causa (Garret 1994).

Algunas de las ventajas de las RNA se pueden enlistar como se muestra a continuación (Rafiq y Easterbrook 2001):

· Las redes neuronales artificiales puedes aprender y generalizar de ejemplos para producir soluciones a problemas.

(21)

CAPÍTULO 1

· Los datos presentados a RNA pueden ser teóricos, experimentales, empíricos o combinaciones de estos.

· La red neuronal puede ser vista como un buen aproximador a una regla o una función.

Asimismo, Moselhi, Hegazy et al. (1992), establecen que:

· Las RNA están organizadas de forma paralela por lo tanto el procesamiento de datos ocurre mucho mas rápido.

· Las RNA son tolerantes a fallos, ya que si algún elemento de la red se pierde, el sistema sigue funcionando con mínimas afectaciones.

· Las RNA ofrecen una solución rápida y precisa en sistemas complejos, dudosos o con situaciones subjetivas.

Finalmente Yagawa y Okuda (1996) mencionan que:

· Se puede construir un mapeo no lineal de múltiples datos de entrada a múltiples datos de salida en la red, a través de un proceso de aprendizaje de algunos ejemplos de entrada vs. relaciones de salida.

· Una vez entrenada la red, esta opera de forma rápida, debido a las operaciones básicas que utiliza y por lo tanto, el poder de cómputo que se necesita equivale al de la fracción de una computadora básica.

(22)

Como se mencionó, la red es capaz de aprender y una vez logrado este objetivo, se utiliza el conocimiento almacenado. Sin embargo, la red funciona como caja negra y es muy difícil que el diseñador sea capaz de interpretar el estado interno de la red. Esto debido a que no existen algoritmos o reglas que describan lo que está haciendo internamente o que justifiquen las respuestas que está generando.

Otra crítica fuerte a las RNA es su escasez de habilidad para extrapolar soluciones a problemas que se encuentran fuera del dominio del entrenamiento de la red.

Si el problema que se quiere abordar es muy complejo, entonces el diseñador debe ser capaz de realizar una excelente delimitación y sustraer información representativa del problema para poder entrenar a la red. Esto puede ser una gran dificultad.

Otro inconveniente son los criterios para diseñar y seleccionar una red que sea capaz de modelar un problema determinado, ya que hasta la fecha estos no son muy claros, y se requiere de cierto nivel de experiencia en el uso de las RNA. Sin embargo se sigue realizando investigación en estos campos para resolver estos problemas.

1.3 Aplicación de las Redes Neuronales Artificiales en la Ingeniería

Mecánica y Estructural.

1.3.1 Ciencia de Materiales.

Bhadeshia (1999) realiza una revisión exhaustiva acerca de la aplicación de las RNA en la ciencia de materiales, en las áreas de: soldadura, donde se analizan los fenómenos de endurecimiento de soldaduras en aceros, optimización en los parámetros de enfriamiento y análisis de fractura durante el enfriamiento.

(23)

CAPÍTULO 1

de materiales Singh, Bhadeshia et al. (1998) implementan una RNA, que es empleada para

desarrollar un método cuantitativo para estimar la resistencia a la tensión, en función de la composición del acero y los parámetros de rolado. Korczak, Dyja et al.(1998) utilizan una

RNA para predecir la relación no lineal entre la composición química del acero, los parámetros de miscroestructura, velocidad de enfriamiento y las propiedades mecánicas finales, el modelo puede ser usado para describir la distribución del tamaño de grano ferrítico y la distribución de las propiedades mecánicas en el espesor de las placas finales. Otras referencias acerca del tema son, (Filetin y Zmak 2002; Sterjovski, Nolan et al. 2005).

1.3.2 Monitoreo e Integridad estructural.

El principal objetivo del Monitoreo e Integridad Estructural es detectar, localizar y evaluar los niveles de daño estructural en la infraestructura civil, es un proceso que incluye tres etapas: monitoreo, adquisición de datos y finalmente la toma de decisión. Wu, Ghaboussi

et al. (1992), Szewczyk y Hajela (1994) , Pandy y Barai (1995), Masri, Nakamura et al.

(1996), Zhao, Ivan et al. (1998) utilizan RNA para extraer y almacenar el conocimiento de los patrones de respuesta en estructuras dañadas y no dañadas, con lo cual evitan la construcción de modelos matemáticos. La información de entrada de la RNA son usualmente respuestas estructurales en el dominio de la frecuencia o parámetros estructurales, (frecuencia, modo de forma, amortiguamiento) y las salidas son usualmente los niveles de daño en los miembros estructurales.

1.3.3 Identificación estructural.

(24)

Masri, Chassiakos et al. (1993) describen de manera detallada el uso de RNA como una

herramienta poderosa en la identificación estructural de sistemas dinámicos, Chen (1995) utiliza una RNA de retropropagación que es entrenada, probada y verificada usando respuestas registradas de un departamento durante un terremoto. Su modelo muestra que el comportamiento dinámico de la construcción puede ser bien conocido a partir de una RNA entrenada. Yun y Bahng (2000) presentan un método para estimar los parámetros de rigidez de un sistema estructural complejo utilizando una RNA de retropropagación, las frecuencias naturales y los modos de forma son usados como patrones de entrada a la red.

1.3.4 Diseño y optimización estructural.

Hajela y Berke (1992) presentan una revisión acerca de la aplicación de las RNA en el modelado no lineal y optimización de estructuras, aplicando la red de retropropagación. También el uso de otras arquitecturas como son la redes Counterpropagation, la red tipo ART y la red Hopfield. Berke, Patnaik et al. (1993) utilizan una RNA para capturar la

habilidad del diseño de estructuras. Una serie de diseños óptimos de dos alas de avión son generados. Los datos del diseño óptimo son procesados para obtener una serie de datos de enterada y salida. Adeli y Park (1995) presentan un sistema neural dinámico que integra el teorema de estabilidad de Lyapunov, las condiciones de Kuhn-Tucker y el concepto de neuro dinámica. Este método provee de un diseño óptimo de grandes estructuras con miles de miembros sujetos a complicadas restricciones discontinuas con excelentes resultados. Otras referencias acerca del tema son Adeli y Park (1995b,1999).

1.3.5 Inspección cuantitativa no destructiva.

(25)

CAPÍTULO 1

utilizan un RNA de retropropagación. Es entrenada usando las relaciones calculadas entre los parámetros de los defectos y las respuestas dinámicas. La RNA entrenada es utilizada para determinar los parámetros correctos de los defectos de acuerdo a la medida de la respuesta dinámica en una superficie sólida. Hernandez, Durodola et al. (2005) presentan

una técnica para localización de defectos en barras con y sin muescas, utilizando como entrenamiento de la RNA. La deformación transitoria recolectada con sensores colocados en la periferia de barras, que previamente fueron impactadas. Se analizan aspectos como la geometría de los defectos y los parámetros de sensado.

Achenbach (2000) presenta el estado del arte de las técnicas de QNDE en la actualidad y muestra el uso de las RNA como un método de gran potencial. Más referencias acerca del tema se pueden encontrar en Yagawa y Okuda (1996), Huijian, Changjun et al. (2005)

1.3.6 Control Estructural.

Ghaboussi y Joghataie (1995), Adeli y Parks (1999) presentan aplicaciones de las RNA en el control de estructuras. El algoritmo de retropropagación en este caso ejecuta el rol de algoritmo de control. La respuesta de la estructura medida en diferentes puntos por sensores y las señales de los actuadores son la entrada al neurocontrolador. Su salida es

el valor de la señal necesaria del actuador para producir las fuerzas deseadas en los actuadores. Chen, Tsai et al. (1995a) también emplea el algoritmo de retropropagación en

el control de estructuras y presenta resultados simulados con base en el modelo de un apartamento sujeto a movimientos de terremotos. Bani-Hani y Ghaboussi (1998) discuten el uso del control no lineal usando RNA a través de simulaciones numéricas, considerando el comportamiento inelástico del material. Datta (2003) realiza una revisión del estado del arte en el área de control de estructuras, tomando en cuenta las técnicas con base en RNA.

1.3.7 Fatiga y crecimiento de grieta.

(26)

entrenada con valores arbitrarios de carga, con el fin de predecir el daño en un espécimen uniaxial. Puesto que obtiene buenos resultados en esta prueba sencilla, extiende posteriormente el método a casos mas complejos de carga, biaxial y triaxial, obteniendo predicciones muy satisfactorias. Fujii, Mackay et al .(1996) utiliza una RNA Bayesiana

con el fin de modelar el nivel de crecimiento de grieta en superaleaciones con base en Níquel, en función de 51 variables, en las que destacan, el factor de intensidad de esfuerzos, la composición química, temperatura, tamaño de grano, tratamiento térmico, frecuencia y tipo de onda de la carga, dimensiones, esfuerzo de cedencia etc. Pleune y Chopra (1998) utilizan 1036 series de experimentos de fatiga para entrenar una RNA con el fin de que esta sea capaz de predecir la vida de fatiga de componentes de acero de bajo carbono para determinadas condiciones de carga y medio ambiente. Concluye que la RNA puede interpolar efectos mediante el aprendizaje de tendencias y patrones en casos donde no existen datos disponibles. (McShane, Malinov et al. (2001) proponen un modelo con base

en una RNA unidireccional, la cual es entrenada con los factores que afectan los diagramas de S-N, como son, la microestructura del material, medio ambiente de operación, temperatura de trabajo, tratamiento superficial y amplitud del esfuerzo. Obtienen buena correspondencia entre las predicciones que realiza RNA y los diagramas experimentales de S-N. Otras referencias acerca del tema son, Kang y Song (1997), Lee, Almond et al.

(1999), Venkatesh y Rack (1999)

1.3.8 Modelado de relaciones constitutivas de materiales.

Ghaboussi, Garret et al. (1990; 1991) por primera vez introducen el concepto de redes

neuronales artificiales aplicado al modelado de las relaciones constitutivas de los materiales. Específicamente modelan el comportamiento de concreto bajo carga monotónica biaxial utilizando una RNA tipo retropropagación obteniendo resultados aceptables en la predicción de la RNA.

Okuda, Miyasaki et al. (1994) presentan dos RNA de retropropagación para modelar el

(27)

CAPÍTULO 1

la segunda aprende el cambio en los esfuerzos de endurecimiento isotrópico obteniendo una curva que se ajusta con un porcentaje de error mínimo a la curva experimental original.

Ghaboussi y Sidarta (1997; 1998) introducen una nueva red neuronal artificial denominada “red neuronal anidada adaptable” la cual aplican para el modelado de pruebas triaxiales de arenas drenadas y no drenadas. La RNA toma ventaja de la estructura anidada del material. Un ejemplo de esto es que el comportamiento unidimensional del material es un subconjunto del comportamiento axisimétrico, el cual a su vez es un subconjunto del comportamiento constitutivo en tres dimensiones. Tomando ventaja de esto se puede entrenar a una RNA partiendo de comportamientos simples a comportamientos mas complejos.

Furukawa y Yagawa (1998) definen y formulan un concepto denominado, “modelo implícito del material” y proponen un modelo de viscoplasticidad con RNA en base a este. Las variables que intervienen en el comportamiento viscoplástico son modeladas bajo la representación del espacio de estados, con el objetivo que la RNA sea capaz de relacionar el estado dinámico de las variables. El modelo es generado a partir de datos pseudos-experimentales obtenidos a partir de un modelo constitutivo clásico. Los resultados de predicción de la RNA permiten sustituir al modelo de forma adecuada.

Ghaboussi, Pecknold et al. (1998) introducen un nuevo método para aprender las relaciones

complejas de esfuerzo-deformación de materiales denominado “entrenamiento autoprogresivo”. La RNA parcialmente entrenada es implementada en un análisis no lineal de elemento finito del espécimen de estudio, con el objetivo de que la RNA sea capaz de extraer, aproximar y mejorar la información de esfuerzo-deformación para entrenar nuevamente la RNA.

(28)

Chetchotsak y Twomey (2002) diseñan una RNA de retropropagación como modelo constitutivo para un aluminio 7075-T6. El conjunto de datos de entrada está representado por la temperatura, la deformación y la velocidad de deformación, entregando como salida el flujo de esfuerzo. Los resultados son validados usando datos experimentales como un conjunto de prueba.

Hashash, Jung et al. (2004) describen en su trabajo la manera de implementar un modelo

de material con base en RNA en un paquete de análisis por el método del elemento finito, exponen las ventajas y desventajas de estos modelos, formulan una matriz de rigidez a partir de la RNA. Los resultados se comparan con la matriz de rigidez convencional. Estoa son bastante satisfactorios, de tal manera que se puede utilizar la matriz directamente en el MEF.

Furukawa y Hoffman (2004) extienden el trabajo de Okuda et al. (1994). Presentan una

metodología para la extracción de datos de entrenamiento a partir de datos experimentales, y entrenan dos RNA con el objetivo de modelar el comportamiento plástico y de plasticidad cíclica de un aleación de acero, los resultados obtenidos son mucho más satisfactorios que los que predice el modelo de Chaboche que es uno de los más exactos para describir el comportamiento cíclico de los materiales.

Yun, Ghaboussi et al. (2007) presentan una RNA para modelar el comportamiento cíclico

de materiales. Esta es capaz de aprender el comportamiento cíclico aun bajo condiciones de esfuerzo no homogéneo en un estado multidimensional de esfuerzo en contraparte a otros modelos que solo han sido probados bajo estados de esfuerzo cíclico uniaxiales.

(29)

CAPÍTULO 1

1.4 Modelado de materiales y las redes neuronales artificiales.

Las simulaciones por computadora tienen numerosas ventajas sobre los métodos experimentales en el proceso de desarrollo de sistemas mecánicos. Entre ellas, el hecho de que las simulaciones son más económicas y tienen un tiempo de desarrollo más corto, además de que se puede extraer mucha más información de los resultados obtenidos que de aquellos originados en pruebas experimentales.

Sin embargo, para poder realizar simulaciones mediante una computadora, es necesario modelar el fenómeno físico que se está observando, esto con la finalidad de poder idealizarlo mediante un modelo matemático que posteriormente puede ser programado e implementado en una computadora. Esta tarea no siempre es sencilla y cuanto más complejo es el fenómeno, más complejo será realizar el modelo matemático que generalice su comportamiento y en muchas ocasiones, una vez obtenido el modelo, la solución particular para determinadas condiciones puede ser muy difícil de resolver. En la figura 1.1 se muestra un esquema del proceso de modelado de un fenómeno físico.

En el caso de esta Tesis, el modelo constitutivo de un material representa el comportamiento mecánico de este, en respuesta a condiciones externas, ya sea cargas, influencia de temperatura, influencia por agentes químicos, degradación, etc. Son modelos matemáticos que intentan aproximarse al comportamiento real y son derivados principalmente de la observación y de datos experimentales. Desde el punto de vista macroscópico y mecánico, un modelo constitutivo describe las relaciones entre los esfuerzos y las deformaciones unitarias. Estas relaciones son modeladas usando datos extraídos de pruebas de tensión, compresión, torsión, flexión etc.

(30)

MEF esencialmente requiere dos tipos de modelos como entradas y son el modelo geométrico y el modelo del material.

En la cuestión del modelo geométrico se han tenido grandes avances en la generación de mallas y modelado 3D, sin embargo en el modelado de los materiales aun existen deficiencias, sobre todo cuando es necesario modelar comportamientos no lineales (inelásticos). Razón por la cual no se han podido reemplazar del todo los experimentos en esta área. Caso contrario sucede con el comportamiento elástico lineal, donde prácticamente el análisis experimental puede ser substituido por el MEF.

La aproximación típica para desarrollar modelos constitutivos es paramétrica y desde los tiempos de Hooke al presente, han sido desarrollados de alguna u otra forma, siguiendo el mismo procedimiento que se resume a continuación (Ghaboussi, Garret et al. 1990):

1. Un material es sometido a prueba y su comportamiento es observado.

2. Un modelo matemático es postulado para explicar el comportamiento observado y entonces sus parámetros deben ser determinados.

3. Este modelo matemático es usado para predecir resultados bajo condiciones aun no probadas, los resultados obtenidos se comparan contra aquellos obtenidos experimentalmente de actuales o futuros experimentos.

4. Entonces el modelo matemático es modificado para tomar en cuenta comportamientos observados, pero no explicados por el modelo en si.

El procedimiento anterior puede requerir de muchas iteraciones antes de poder llegar a un grado aceptable de error. Según Furukawa y Yagawa (1998), al modelo del material desarrollado por este proceso se le conoce como modelo del material explicito y está

(31)

CAPÍTULO 1

Identificación del problema

1 Identificar las entradas y salidas

deseadas

2 Identificar los mecanismos físicos

Experimento 3.1

Observación directa donde sea posible

Experiencia 3.2

Con problemas parecidos 3 Identificar la presición 4 Construir el modelo

5 Análisis dimensional

del grupo de variables 6 Implementación computacional 8 Interrogar al modelo 9 Mostrar, el uso del

modelo Herramientas de 5.1

modelado

Estructural Elasticidad Plasticidad Mecánica de fluidos Termodinámica Cinemática Dinámica

Mecánica de la fractura Teoría de Creep Etc.

Problemas modelados 5.2 anteriormente

Soluciones Estándar de> Teoría de vigas Estática Dinámica Teoría de placas y membranas

Transferencia de Calor Cinemática

Mecánica de la Fractura Etc.

Revisar el modelo 8.1

Simplificaciones Limitar el comportamiento Limites en la validación Análisis de sensibilidad Comparar con datos Validar el modelo

Modificar el modelo 8.2

Agrupar parámetros empíricos Calibración de dispositivos Calibrar contra un subconjunto de datos Validar el modelo

Mostrar 9.1

Gráficas Datos

Presentación CAD

Usar 9.2

Solucionar problema Diseño

Simulación de Proceso y control Factor 10 Factor 2 Factor 1.1 Ite ra r

[image:31.612.126.489.74.650.2]

(32)

Los modelos constitutivos avanzados son diseñados para describir comportamientos no lineales bajo cargas cíclicas (Chaboche y Rousselier 1983; Ohno 1990; Bari y Hassan 2002). Estos modelos cuentan con un gran número de parámetros a identificar, muchos de ellos carecen de un significado físico bien definido. Por lo tanto, la mayoría de estos parámetros son determinados en un proceso de prueba y error, lo que puede convertirse en un proceso largo y tedioso, además, este proceso requiere de un profundo conocimiento y experiencia en el modelo, ya que cada uno cuenta con su propia metodología.

Así, los modelos explícitos tienen la desventaja de depender totalmente de la formulación matemática, por lo que son modelos rígidos y que inevitablemente generan errores causados por las siguientes deficiencias:

· Inapropiada identificación de parámetros: Las constantes o parámetros son normalmente identificados paso a paso ajustando el modelo. Por lo tanto existe la acumulación de errores a través de este proceso iterativo. A esto se agrega que la cantidad de experimentos puede ser limitada, conduciendo a una falta de información y por consecuencia a una identificación de parámetros inapropiada.

· Inevitable existencia de errores: No importa cuales constantes del material sean determinadas. Los errores causados por la imprecisión del modelo permanecen en menor o mayor medida.

Las redes neuronales artificiales proveen una aproximación diferente en el modelado de materiales, es una aproximación clasificada como no paramétrica.

(33)

CAPÍTULO 1

Debido que la red captura las relaciones entre el esfuerzo y la deformación a través de la modificación de su estructura interna, no es necesario establecer fórmulas o expresiones matemáticas en este tipo de modelos.

Como la RNA es una aproximación computacional, entonces el modelo del material representado por la RNA podría ser implementado en el Método del Elemento Finito.

En resumen, las ventajas que potencialmente presentan los modelos constitutivos con base en RNA son las siguientes (Pernot y Lamarque 1999):

· Permiten evitar suposiciones a priori acerca de las leyes constitutivas.

· Pueden resolver el problema de la inversión de la ley constitutiva.

· Pueden ser usados directamente resultados experimentales con el objetivo de construir el modelo.

· La fase de entrenamiento puede ser extendida para mejorar el modelo.

1.5 Planteamiento del problema.

Dos casos de comportamiento inelástico son propuestos para ser modelados mediante la implementación de redes neuronales artificiales.

El primero es el de comportamiento plástico. A través de datos experimentales obtenidos de la curva de esfuerzo-deformación unitaria se intentará mediante una RNA modelar el comportamiento del material en la zona plástica, esto partiendo de la hipótesis de que la RNA debe ser capaz de relacionar los patrones de entrada y salida, en este caso la deformación y el esfuerzo respectivamente.

(34)

una curva de esfuerzo-deformación unitaria cíclica con deformación controlada, se intentara extraer información de entrenamiento para la RNA.

Para llevar a cabo el modelado de estos comportamientos es necesario establecer una metodología que permita extraer los datos de entrenamiento necesarios para el aprendizaje de la RNA, para lo cual es necesario establecer los parámetros de entrada-salida de la RNA.

También existen criterios para el diseño de la RNA, como son el tipo de arquitectura, numero de capas y neuronas, algoritmo de entrenamiento, funciones de transferencia etc. Estos deben ser establecidos para construir la RNA de manera que sea capaz de aprender los datos de entrenamiento con el mínimo error posible sin perder su capacidad de generalización.

Todos estos aspectos serán analizados y establecidos en este trabajo de tesis.

1.6 Sumario

(35)

CAPÍTULO 2

Capítulo 2 Marco Teórico

2.1 Conceptos básicos de las Redes Neuronales Artificiales.

2.1.1 Neuronas Biológicas.

El cerebro humano cuenta con aproximadamente de 1011 neuronas interconectadas y que a diario facilitan el aprendizaje, la lectura, el habla etc. Alguna parte de toda esta infraestructura se adquiere desde el nacimiento y otras partes se establecen con la experiencia.

Los investigadores recién han comenzado a entender el funcionamiento de las redes neuronales biológicas. A través de varias investigaciones se ha descubierto que todas las funciones de las neuronas biológicas incluyendo la memoria son almacenadas en la neurona y sus conexiones sinápticas. El aprendizaje se define como el establecimiento de nuevas conexiones entre las neuronas o la modificación de las conexiones existentes.

Estas neuronas están formadas de tres partes principales que son: las dendritas, el axon y el cuerpo de la célula o soma. Las primeras son el árbol receptor de la red y son fibras nerviosas que cargan de señales eléctricas al cuerpo de la red, ambos son el componente receptor de la neurona. El cuerpo de la célula recibe y realiza la suma de esas señales de entrada. El axón es una fibra que trasmite las señales eléctricas del cuerpo de la célula hacia otras neuronas. El punto de contacto entre un axón de una célula y la dendrita de otra célula es llamada sinapsis. En la figura 2.1 se muestra el esquema básico de una neurona biológica.

(36)

reconocimiento o aprendizaje de la cara de un nuevo amigo consiste en la alteración de varias sinapsis.

AXÓN

NÚCLEO

SOMA DENDRITAS

SINAPSIS

Figura 2.1. Red neuronal biológica.

2.1.2 Modelo de una neurona.

Las redes neuronales artificiales no se aproximan aún a la complejidad de sus contrapartes biológicas, sin embargo existen dos similitudes fundamentales, (Hagan, Demuth et al. 1996):

1. Los bloques que forman las estructuras neuronales de ambos, son dispositivos de procesamiento simples que están interconectados.

2. Las conexiones entre las redes determinan la función de la neurona.

[image:36.612.154.481.146.353.2]

(37)

CAPÍTULO 2

Figura 2.2. Esquema básico de una neurona artificial.

Las entradas x_i representan las señales que provienen de otras neuronas y que son

capturadas por las dendritas, se representan por un vector de entradas:

) ..., , ( _i _i _n

i = x x x

x (2.1)

Cada señal pasa a través de una ganancia o peso sináptico, cuya función es análoga a la

función sináptica de la red neuronal biológica. Los pesos w_i son la intensidad de la

sinapsis que conecta dos neuronas, y pueden ser positivos (excitatorios) o negativos (inhibitorios), tanto x_i como w_i son valores reales. El vector de pesos se representa como:

) ..., ,

( _i _i _n

i = w w w

w (2.2)

La suma de las entradas multiplicadas por sus respectivos pesos se calcula como se muestra a continuación:

å

=

= n

j j ix

w u

1

(38)

) (u b_n

v= + (2.4)

El valor v es llamado “el potencial de la neurona” o “activación” de la neurona. El valor

de bias b_n tiene el efecto de incrementar o disminuir la entrada a la función de

transferencia, depende de si esta es positiva o negativa respectivamente. Una vez que se ha cálculado la activación del nodo v, el valor de salida de la red equivale a la siguiente

expresión:

) (v f

a= (2.5)

Donde f() representa la función de activación o función de transferencia de esta unidad,

que corresponde a la función seleccionada para transformar la entrada total v en el valor

de salida a. La función de transferencia limita la amplitud de la salida de la neurona a

valores finitos.

2.1.3 Funciones de transferencia.

Generalmente la función de transferencia se escoge de acuerdo a las características del problemas que se esta modelando y entonces los parámetros w_i y b_n serán ajustados

mediante alguna regla de aprendizaje hasta que la relación de entrada-salida alcance una meta establecida. Estas funciones pueden ser lineales o no lineales, a continuación en la tabla 2.1 se describen algunas de las funciones básicas más utilizadas.

Tabla 2.1 Funciones de transferencia (Hagan, Demuth et al. 1996).

Nombre Relación de Entrada/Salida

Hard Limit

î í ì

< ³ =

=

0 si 0

0 si 1 ) (

n n n

(39)

CAPÍTULO 2

Hard Limit

simétrica _îí

ì ³ + < -= = 0 si 1 0 si 1 ) ( n n n f a

Lineal a=n

Lineal saturada ï î ï í ì > £ £ < = = 1 si 1 1 0 si 0 si 0 ) ( n n n n n f a Lineal saturada

simétrica _ï

î ï í ì > = £ £ -= -< -= = = 1 si 1 1 1 si 1 si 1 ) ( n a n n a n a n f a

Log-Sigmoid n

e a -+ = 1 1 Tangente

Hiperbólica n n

(40)

Lineal positiva î í ì £ < = = n n n n f a 0 si 0 si 0 ) ( Competitiva î í ì = = neuronas otras 0 max con neurona 1 )

(n n

f a

A manera de ejemplo, la función hard-limit simétrica entrega el valor de 0 cuando el argumento de la función es menor que cero, o 1 si el argumento de la función es igual o mayor que cero.

2.1.4 Funcionamiento básico y operación de una red neuronal artificial

Una Red Neuronal Artificial (RNA) está constituida por neuronas interconectadas entre si, las cuales funcionan de forma análoga a las neuronas biológicas. Cada neurona típicamente recibe varias señales de entrada provenientes de otras neuronas o del mundo exterior. Asimismo cada neurona en la red mantiene solamente una pieza de información (de acuerdo a su nivel actual de activación) y es capaz solamente de llevar a cabo algunas operaciones simples (sumar entradas, calcular un nuevo nivel de activación, o comparar una entrada con respecto a un valor de umbral). Una neurona recibe entonces un estímulo de entrada a través de sus conexiones de entrada y los traduce en una respuesta de salida, la cual es trasmitida a lo largo de la conexión de salida de la neurona.

(41)

CAPÍTULO 2

coeficiente de multiplicación). La neurona calcula una señal de salida de acuerdo a la entrada y envía ese valor a otra neurona. Finalmente, el patrón de entrada genera uno de salida que se calculó de acuerdo al estado interno de la red. Si el patrón de salida es diferente al que se esperaba, entonces se genera un error que es igual a la diferencia entre el patrón obtenido y el deseado.

Una RNA “aprende” a resolver una tarea, esta no se programa para hacerlo. El proceso de aprendizaje de una RNA consiste en la modificación de los pesos entre las conexiones de sus neuronas, existen diferentes algoritmos de aprendizaje para diferentes arquitecturas de las RNA los cuales se detallaran en las siguientes secciones de esta tesis.

A continuación se presenta una descripción de la anatomía básica de las RNA que se divide en siete pasos de acuerdo a Rumelhart, Hinton et al. (1986):

1. Un conjunto de unidades de procesamiento. 2. El estado de activación de la unidad de proceso

3. La función usada para calcular la salida de una unidad de proceso. 4. El patrón de conectividad de las unidades de proceso.

5. La regla de propagación empleada. 6. La función de activación empleada. 7. La regla o algoritmo de aprendizaje.

Las RNA se pueden clasificar de acuerdo al tipo de arquitectura o al tipo de entrenamiento implementado.

2.1.5 Arquitectura de las RNA.

De acuerdo a la arquitectura, las redes neuronales pueden ser clasificadas en: redes neuronales recurrentes y redes neuronales con propagación hacia adelante (feed-forward); también se les nombra redes neuronales interconectadas y redes neuronales jerarquizadas respectivamente. En la figura 2.3 se muestran los dos tipos de redes.

(42)

propagación hacia delante. Estas últimas se caracterizan por tener la presencia de capas ocultas y cuyas neuronas se llaman respectivamente neuronas o unidades ocultas. En este tipo de arquitectura la señal se trasmite solo en una dirección y solamente de la entrada hacia la salida. Este tipo de redes cuenta con capas cuyos nodos de la misma no están interconectados, sin embargo si lo están con los de la capa siguiente.

Las redes recurrentes se caracterizan, a diferencia de las de propagación hacia delante, en que existe un lazo de retroalimentación y pueden contener una o más capas que están totalmente interconectadas, cada neurona en una capa trasmite su salida a cada neurona en la siguiente y viceversa.

2.1.6 Aprendizaje.

El aprendizaje en una RNA consiste en hacer cambios sistemáticos en los pesos de las conexiones de las neuronas, con el objetivo de mejorar la respuesta de la red a niveles aceptables de error. Esto se logra mediante un algoritmo de entrenamiento, el aprendizaje se hace por medio de ejemplos y se puede clasificar en tres formas que se describen a continuación:

Aprendizaje supervisado: Aquí se le proporciona a la red un patrón de entrada, junto con la salida que debería generar la red. El proceso de entrenamiento consiste en el ajuste de los pesos, para que la salida de la red sea lo más parecida posible a la deseada. Es por ello que en cada iteración se usa alguna función que calculé el error o el grado de acierto que esté cometiendo la red.

Aprendizaje no supervisado o autoorganizado: En este tipo de aprendizaje se presenta a la red una serie de patrones, pero no la respuesta deseada. Lo que hace la red es reconocer regularidades en el conjunto de entradas, es decir, estimar una función densidad de probabilidad p(x) que describe la distribución de patrones x en el espacio de entrada Rn.

(43)

CAPÍTULO 2

O1

O2

Capa de salida

R1

I1

I2

I3

I4

B1 B2

Variables recicladas

Bias Bias

B) Redes Recurrentes

(44)

Aprendizaje reforzado: Es un aprendizaje con características del supervisado y del autoorganizado. No se proporciona una salida deseada, pero sí se le indica a la red en cierta medida el error que comete, aunque es un error global.

2.1.7 Formulación de una red neuronal de una sola capa.

Una RNA de una sola capa se muestra en la figura 2.4. De acuerdo al modelo de la neurona expuesto anteriormente y mediante una formulación matricial, las salidas totales se calculan mediante la siguiente formula.

) (Wx b

a= f + (2.6)

1

a

2

a

S

a

1

u

2

u

s

u

2

b

S

b

1

b

1 , 1

w

R S

w

_, 1

x

2

x

3

x

R

x

å

Figura 2.4 Arquitectura de una RNA de una sola capa.

Donde a representa el vector de salidas, x el vector de entradas, b el vector de bias, f

es la función de transferencia de las neuronas en la capa y W es la matriz de pesos con S

-filas y R-columnas como se muestra a continuación:

ú ú ú ú ù ê ê ê ê é = R R w w w w w w w w w , 2 2 , 2 1 , 2 , 1 2 , 1 1 , 1 L M M M L L

(45)

CAPÍTULO 2

Como se puede notar en la ecuación 2.7, los índices correspondientes al renglón de los elementos indica la neurona destino asociada con ese peso, mientras que los índices de las

columnas indican el origen de la entrada para ese peso. Por ejemplo los índices en w₃_,₂

indican que este peso representa la conexión entre la tercera neurona y la segunda entrada de origen.

2.1.8 Formulación de una red neuronal multicapas.

En la figura 2.5 se muestra una neurona compuesta de varias capas, cada una tiene su propia matriz de pesos W, su propio vector de bias b, el vector de entradas x y el de salidas a, los superíndices en este caso indican a cual capa pertenece cada atributo, como se muestra en la figura 2.5.

1 1 a 1 2 a 1 1 S a 1 1 u 1 2 u 1 1 S u 1 2 b 1 1 S b 1 1 b 1 1 , 1 w 1 , 1_R S

w w_S22_,_S1

1 x 2 x 3 x R x 2 f 1 f 1 f 1 f 2 f 2 f 2 1 , 1 w 2 1 b 2 2 b 2 2 S b 2 1 u 2 2 u 2 2 S u 2 1 a 2 2 a 2 2 S a 3 , 2 3_S S w 3 f 3 f 3 f 3 1 , 1 w 3 1 b 3 2 b 3 3 S b 3 1 u 3 2 u 3 3 S u 3 1 a 3 2 a 3 3 S a å å å å å å å å å

Figura 2.5 Arquitectura de una RNA multicapas.

La capa que recibe las entradas del exterior es la de entrada. La que proporciona las salidas totales de la RNA es la de salida, y las restantes son denominadas capas ocultas. La salida total de la red se calcula mediante la siguiente expresión:

) ) ) (

(

( 3 2 2 1 1 1 2 3

3

3 _f _W _f _W _f _W _x _b _b _b

(46)

2.2 Redes Neuronales de Retropropagación (Backpropagation).

2.2.1 Descripción general.

Con la aparición del primer modelo de una red neuronal por parte de McCulloc y Pitts (1943) comienza la era de la redes neuronales artificiales. Posteriormente, Rosenblatt (1958) desarrolla la primera regla de aprendizaje para una RNA, llamada “regla de aprendizaje del Perceptrón”. Widrow y Hoff (1960) introdujeron la red Adaline y la regla de aprendizaje LMS (Least Mean Square) por sus siglas en ingles. Estos algoritmos fueron diseñados para entrenar redes de una sola capa. Estas tienen la desventaja de que sólo pueden resolver problemas linealmente separables (Minsky y Papert 1969). Rumelhart y McClelland (1986) publican en su obra el algoritmo de retropropagación, el cual lleva al surgimiento de las RNA multicapas para superar las dificultades que presentaban las redes de una sola capa.

(47)

CAPÍTULO 2

El algoritmo de retropropagación busca el error mínimo de la función en el espacio de los pesos, usando el método del gradiente descendiente. La combinación de los pesos que minimizan el error de la función es considerada para ser una solución al problema de aprendizaje. El algoritmo se describe a continuación:

2.2.2 Algoritmo de entrenamiento.

Fase de propagación hacia delante:

Cuando el patrón p-esimo es proporcionado a la capa de entrada, la entrada de la red al

j-esimo nodo es:

(2.9)

La salida de este nodo es:

(2.10)

De manera similar, la salida del nodo k en la capa de salida es:

(2.11)

Donde h j

f y f_ko representan las funciones de transferencia de el nodo j-esimo en la capa

oculta y el k-esimo nodo en la de salida. Debido a que el método del gradiente

descendiente es usado en el algoritmo, entonces la función de transferencia debe ser continuamente derivada. Si se utiliza una función logsigmoid la derivada de esta es

) 1 ( ' f f f = - .

(48)

El error entre la salida de la red y el valor deseado se calcula mediante la siguiente formula:

(2.12)

El algoritmo de retropropagación aplica una corrección DW(p) al peso W(p), el cual es

proporcional al gradiente ¶Ep/¶W(p) mediante la regla delta como:

(2.13)

Donde 0<h<1es el parámetro de tasa de aprendizaje. Como el gradiente ¶Ep/¶W(p) es

diferente en los nodos de la capa de entrada a los de la oculta, la fórmula para la corrección de los pesos será diferente.

Modificación de los pesos conectados en la capa de salida:

El gradiente de Ep con respecto a

0

kj

w puede ser calculado como:

(2.14)

Sea

(2.15)

El gradiente local para el nodo k. Entonces, los valores de los pesos modificados

(49)

CAPÍTULO 2

(2.16)

Modificación de los pesos conectados a las capas ocultas.

El error total E_p debe ser relacionado al peso conectado a la capa oculta como sigue:

(2.17)

El gradiente de Ep con respecto al peso conectado a la capa oculta es:

(2.18)

Sea

(2.19)

El gradiente local del nodo jen la capa oculta. Entonces:

(50)

Si la función de transferencia es una logsigmoid con la derivada f'= f(1- f), el gradiente

local del nodo en la capa de entrada y la oculta puede ser representado respectivamente como:

(2.21)

(2.22)

Además, el error en las unidades de la capa oculta debe ser calculado antes de que los pesos en las conexiones de la capa de salida sean actualizados.

2.2.3 Modos de entrenamiento.

Dependiendo la forma en la que un conjunto de entrenamiento es presentado a una RNA durante la etapa de aprendizaje, pueden ser identificadas dos formas básicas de entrenamiento: por lotes o secuencial (Haykin 1999). En el primer caso, se cálcula un error promedio después de que se ha presentado a la red el conjunto total de datos, lo que constituye una “época”. Solo entonces se modifican y ajustan los pesos.

En el entrenamiento secuencial, el error es calculado inmediatamente después de que cada patrón de entrenamiento es presentado a la red y entonces los pesos son ajustados. Swingler (1996) indica en los siguientes puntos las consideraciones que se deben tener en cuenta al momento de escoger algunos de los dos modos antes mencionados:

· El modo por lotes requiere de ajustar los pesos en menos cantidad por lo tanto, el entrenamiento es más rápido.

(51)

CAPÍTULO 2

A pesar del hecho de las desventajas que presenta el modo secuencial, es muy popular por las siguientes razones:

· El algoritmo es simple de implementar.

· Provee soluciones efectivas a problemas muy grandes con alto grado de dificultad.

· Si el conjunto de datos de entrenamiento es redundante el modo secuencial toma ventaja debido a que los patrones son presentados uno por uno.

2.2.4 Conjunto de datos de entrenamiento.

Con el objetivo de que la red sea capaz de mapear el conjunto de datos de entrada con el de salida, es esencial que el conjunto de patrones presentado sea apropiadamente seleccionado para cubrir el dominio de entrenamiento. Una red bien entrenada es aquella que es capaz de responder a cualquier patrón no conocido dentro del dominio adecuado.

Hasta el momento no hay reglas generalizadas para determinar el tamaño de la base de datos de entrenamiento. Los patrones seleccionados deben cubrir las fronteras superior e inferior del dominio de entrenamiento completo y tener un número de ejemplos representativos de las características de este.

Flood y Kartam (1994) sugieren los siguientes puntos para seleccionar los patrones de entrenamiento:

· Ya que la RNA no puede ser usada para extrapolar, el conjunto de patrones de entrenamiento debe llegar como mínimo a los bordes del dominio del problema en todas direcciones.

(52)

tiende a enfocarse en aquellas regiones donde los patrones de entrenamiento están densamente agrupados e ignora aquellos que están separados de la población.

· El progreso del entrenamiento puede ser deficiente, si los patrones de entrenamiento caracterizan una región que es relativamente estrecha en unas dimensiones y abierta en otras. En estos casos el cambio en la forma de la superficie de la solución durante el entrenamiento, puede ocurrir rápidamente en las direcciones en las cuales el dominio del entrenamiento es estrecho y lentamente en las que es extenso. Normalizar los datos de entrenamiento mejora las proporciones del dominio de este y ayuda a evitar este problema.

2.2.5 Arquitectura de la RNA de retropropagación.

En general, cada etapa en el diseño de una RNA requiere cierto grado de prueba y error para establecer una que sea apropiada para determinado problema. El número de entradas y salidas de la RNA es determinado por la naturaleza del problema. Sin embargo, el número de capas ocultas y de neuronas en cada una, no es tan fácil de establecer debido a que no existen reglas que indiquen estos parámetros.

Flood y Kartam (1994) sugieren que dos capas ocultas proveen la flexibilidad necesaria para modelar casi cualquier problema, y se recomienda este número como un punto de partida cuando se modela una RNA de retropropagación. Sin embargo, siempre es preferible que si el problema lo permite, se utilice solo una capa oculta.