Predicción del IBC utilizando redes neuronales artificiales y máquinas de vectores soporte

86 

Loading....

Loading....

Loading....

Loading....

Loading....

Texto completo

(1)Proyecto de Grado. Presentado ante la ilustre Universidad de Los Andes como requisito parcial para obtener el Tı́tulo de Ingeniero de Sistemas. Predicción del IBC utilizando Redes Neuronales y Máquinas de Vectores Soporte Por. Br. Nimar J. Zambrano D. Tutor: Prof. Georges Jabbour. Octubre 2006 c 2006 Universidad de Los Andes Mérida, Venezuela.

(2) Predicción del IBC utilizando Redes Neuronales y Máquinas de Vectores Soporte Br. Nimar J. Zambrano D. Proyecto de Grado — Investigación de Operaciones, 75 páginas Resumen: El objetivo de este estudio es realizar predicciones del Índice Bursátil Caracas con el mayor grado de exactitud posible utilizando Máquinas de Vectores Soporte (MVS), donde la exactitud será medida comparando los resultados obtenidos de una MVS con los resultados de una Red Neuronal Artificial. Para llevar a cabo este objetivo fue necesario estudiar los fundamentos teóricos pertenecientes a Series de Tiempo, Redes Neuronales (RNA) y Máquinas de Vectores Soporte, además fue preciso construir un modelo de una Red Perceptrónica Multicapa (RPM) y un modelo de MVS que permitiera realizar las predicciones. La construcción de estos modelos se realizó por medio de un proceso de ensayo y error, el cual permitió encontrar la mejor configuración de parámetros para cada caso. La determinación del modelo de la RPM se realizó utilizando cuatro configuraciones, distinguiéndose una de otra principalmente por el número de entradas a la red, además de las variaciones en otros parámetros, mientras que el modelo de la MVS se determinó utilizando tres configuraciones, donde éstas se diferencian por el número de desfasajes de la serie de tiempo tomados en cuenta para la construcción de los patrones de entrenamiento y prueba, aparte de la variación de los parámeros propios del método. A través de la comparación de los resultados, se observó que las Máquinas de Vectores de Soporte presentan un mejor desmpeño en cuanto a exactitud y precisión con respecto a las Redes Neuronales Artificiales Palabras clave: Series de Tiempo, Redes Neuronales Artificiales, Máquinas de Vectores Soporte, Predicción, Índice Bursátil Caracas.

(3) A la memoria de mi padre, a mi madre, Martina A. de Zambrano, a mis hermanos, Geovanny, Victor, Rafael, Joan y Marni y a mi sobrina Vicmar con todo mi amor.

(4) Índice Índice de Tablas. vii. Índice de Figuras. ix. Agradecimientos. xi. 1 Introducción. 1. 1.1. Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.2.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . .. 3. Organización del Documento. . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3. 2 Bolsa de Valores. 5. 2.1. Historia de la Bolsa de Valores . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2. Definición de la Bolsa de Valores . . . . . . . . . . . . . . . . . . . . .. 6. 2.3. Principales Caracterı́sticas de la Bolsa de Valores . . . . . . . . . . . .. 6. 2.4. Bolsa de Valores de Caracas . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.5. Términos Financieros . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 3 Series de Tiempo. 11. 3.1. Introducción al Análisis de Series de Tiempo y Predicción . . . . . . . .. 11. 3.2. Definición de una Serie de Tiempo. . . . . . . . . . . . . . . . . . . . .. 12. 3.3. Objetivos del Análisis de Series de Tiempo . . . . . . . . . . . . . . . .. 13. 3.4. Métodos de Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. iv.

(5) 3.5. Series de Tiempo Estacionarias y no Estacionarias . . . . . . . . . . . .. 15. 3.6. Pruebas de Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . .. 15. 4 Redes Neuronales Artificiales (RNA). 18. 4.1. Introducción a las Redes Neuronales Artificiales . . . . . . . . . . . . .. 18. 4.2. Fundamentos de las Redes Neuronales Artificiales . . . . . . . . . . . .. 20. 4.2.1. Modelo Biológico . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 4.2.2. Definición de una Neurona Biológica . . . . . . . . . . . . . . .. 20. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . . .. 22. 4.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 4.3.2. La Neurona Artificial . . . . . . . . . . . . . . . . . . . . . . . .. 22. 4.3.3. Analogı́a entre la Neurona Artificial y Biológica . . . . . . . . .. 22. 4.3.4. Modelo de una Neurona Artificial . . . . . . . . . . . . . . . . .. 22. 4.3.5. Funciones de Activación . . . . . . . . . . . . . . . . . . . . . .. 23. 4.4. Arquitectura de una Red Neuronal Artificial . . . . . . . . . . . . . . .. 25. 4.5. Entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. Regla Delta Generalizada o Backpropagation . . . . . . . . . . .. 31. Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.3. 4.5.1 4.6. 5 Máquinas de Vectores Soporte. 33. 5.1. Introducción a las Máquinas de Vectores Soporte . . . . . . . . . . . .. 33. 5.2. Máquinas de Vectores Soporte (MVS) . . . . . . . . . . . . . . . . . . .. 34. 5.3. Formulación Matemática de las MVS para Regresión (Caso Lineal) . .. 36. 5.4. Máquinas de Vectores Soporte no Lineales . . . . . . . . . . . . . . . .. 41. 5.5. Máquinas de Vectores Soporte para Grandes Conjuntos de Datos . . . .. 45. 6 Experimentos y Resultados. 52. 6.1. Serie de Tiempo IBC . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. 6.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . . .. 54. 6.2.1. Configuraciones Propuestas . . . . . . . . . . . . . . . . . . . .. 56. 6.2.2. Fase de Entrenamiento . . . . . . . . . . . . . . . . . . . . . . .. 56. 6.2.3. Fase de Prueba . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59.

(6) 6.2.4 6.3. 6.4. Determinación de la Mejor RNA . . . . . . . . . . . . . . . . . .. 61. Máquinas de Vectores Soporte . . . . . . . . . . . . . . . . . . . . . . .. 63. 6.3.1. Configuración Propuestas para las MVS . . . . . . . . . . . . .. 64. 6.3.2. Fase de Entrenamiento . . . . . . . . . . . . . . . . . . . . . . .. 65. 6.3.3. Prueba de las MVS . . . . . . . . . . . . . . . . . . . . . . . . .. 67. 6.3.4. Determinación de la Mejor MVS . . . . . . . . . . . . . . . . . .. 67. Análisis Comparativo de los Resultados . . . . . . . . . . . . . . . . . .. 69. 7 Conclusiones y Recomendaciones. 71. 7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 71. 7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 72. Referencias Bibliográficas. 74.

(7) Índice de Tablas 13. 3.1. Ejemplos de series de tiempo . . . . . . . . . . . . . . . . . . . . . . . .. 5.1. Kernels utilizados para el caso no lineal de Máquinas de Vectores Soporte. 43. 6.1. Formato original de la serie de tiempo IBC. . . . . . . . . . . . . . . .. 55. 6.2. Serie de tiempo IBC desfasada una vez. . . . . . . . . . . . . . . . . . .. 55. 6.3. Patrones de entrenamiento equivalente a una entrada a la RNA. . . . .. 55. 6.4. Configuraciones para la red de una entrada. . . . . . . . . . . . . . . .. 57. 6.5. Configuraciones para la red de dos entradas. . . . . . . . . . . . . . . .. 57. 6.6. Configuraciones para la red de tres entradas. . . . . . . . . . . . . . . .. 57. 6.7. Configuraciones para la red de cuatro entradas. . . . . . . . . . . . . .. 58. 6.8. Resultados del entrenamiento para la red de una entrada. . . . . . . . .. 58. 6.9. Resultados del entrenamiento para la red de dos entradas. . . . . . . .. 59. 6.10 Resultados del entrenamiento para la red de tres entradas. . . . . . . .. 59. 6.11 Resultados del entrenamiento para la red de cuatro entradas. . . . . . .. 59. 6.12 Resultados de las cuatro mejores configuraciones. Fase de entrenamiento 60 6.13 Resultados de todas las configuraciones propuestas en la fase de prueba.. 61. 6.14 Resultados de las cuatro mejores configuraciones. Fase de prueba . . .. 62. 6.15 Configuraciones para las MVS . . . . . . . . . . . . . . . . . . . . . . .. 65. 6.16 Resultados de la fase de entrenamiento para todas las configuraciones propuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 66. 6.17 Mejores resultados en la fase de entrenamiento . . . . . . . . . . . . . .. 67. 6.18 Resultados de la fase prueba para todas las configuraciones de MVS propuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.19 Las tres mejores MVS . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. vii.

(8) 6.20 Resultados obtenidos de las RNAs y MVS. . . . . . . . . . . . . . . . .. 70.

(9) Índice de Figuras 3.1. Serie de tiempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 4.1. Dibujo esquemático de una neurona biológica. . . . . . . . . . . . . . .. 21. 4.2. Analogı́a entre la neurona artificial y biológica. . . . . . . . . . . . . . .. 23. 4.3. Analogı́a entre la neurona artificial y biológica. . . . . . . . . . . . . . .. 24. 4.4. Función lineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 4.5. Función sigmoidal o logı́stica. . . . . . . . . . . . . . . . . . . . . . . .. 25. 4.6. Función tangencial hiperbólica. . . . . . . . . . . . . . . . . . . . . . .. 25. 4.7. Red de propagación hacia adelante . . . . . . . . . . . . . . . . . . . . .. 27. 4.8. Red de propagación hacia atrás. . . . . . . . . . . . . . . . . . . . . . .. 28. 4.9. Red recurrente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 4.10 Red con alimentación lateral. . . . . . . . . . . . . . . . . . . . . . . .. 28. 4.11 Arquitectura de una red perceptrónica multicapas. . . . . . . . . . . . .. 29. 5.1. MVS en el caso de clasificación y regresión. . . . . . . . . . . . . . . . .. 35. 5.2. Función de pérdida ε-insensible (errores menores que ε no se toman en cuenta). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 5.3. Ejemplo de regresión sin regularización y con regularización. . . . . . .. 38. 5.4. Representación de la recta de regresión considerando el tubo ε-insensible. 38. 5.5. Ajuste de una regresión correspondiente a una MVS lineal. . . . . . . .. 5.6. Transformación no lineal Φ(·) de los patrones de entrenamiento al espa-. 41. cio de caracterı́sticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 5.7. Espacio de caracterı́sticas construido por la función Kernel. . . . . . . .. 43. 5.8. MVS para regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. ix.

(10) 6.1. Comportamiento de la serie de tiempo IBC. . . . . . . . . . . . . . . .. 53. 6.2. Autocorrelograma simple de la serie de tiempo IBC. . . . . . . . . . . .. 53. 6.3. Salida de la red de tres entradas. Fase de entrenamiento. . . . . . . . .. 60. 6.4. Salida de la red de cuatro entradas. Fase de entrenamiento. . . . . . . .. 61. 6.5. Salida de la red de una entrada. Fase de prueba. . . . . . . . . . . . . .. 62. 6.6. Salida de la red de dos entradas. Fase de prueba. . . . . . . . . . . . .. 63. 6.7. Salida de la MVS utilizando un desfasaje de la serie de tiempo. . . . . .. 69. 6.8. Ajuste de las predicciones utilizando RNAs y MVS. . . . . . . . . . . .. 70.

(11) Agradecimientos Antes que nada quiero darle gracias a Dios por permitirme culminar esta meta, y en las siguientes lı́neas quiero expresar mi gratitud incondicional a todas y cada una de las personas que han colaborado para que la realización de este proyecto de grado llegue a su fin. Al profesor Georges Jabbour, por su apoyo, orientación y confianza brindada en el desarrollo de este proyecto. A mi amiga Carmen Virginia Rojas Mejia, por ser ese pilar que nunca dejó derrumbar las expectativas propuestas, y por siempre tener la solución a muchos problemas, además de una palabra de aliento cuando la necesitaba. Al Ingeniero Jean Carlos Rodrı́guez Valero, por su apoyo incondicional. A Dulmar Salcedo, por brindarme su amistad, apoyo y estı́mulo permanente para la culminación de este prpyecto. A los seres más importantes en mi vida, mi madre Martina Antonia y mis hermanos: Geovanny, Victor, Rafael, Joan y Marni, por siempre estar presentes en los momentos difı́ciles e importantes de mi vida, y sobre todo por animarme para que esta meta llegará a su fin.. xi.

(12) Capı́tulo 1 Introducción La predicción de series de tiempo financieras es considerada como una de las aplicaciones más desafiantes en el análisis de series de tiempo, esto se debe a la caracterı́stica de no linealidad que presentan las mismas. Debido a esta caracterı́stica se ha tratado de buscar alternativas que permitan resolver el problema de predicción de este tipo de series, ya que la aproximación clásica al modelado de series de tiempo considera el caso lineal (Box y Jenkins). Una de las alternativas utilizadas hace algunos años en la predicción de series de tiempo financieras son las Redes Neuronales Artificiales (RNA). Las RNAs son funciones aproximadoras universales, que pueden proyectar alguna función no lineal sin suposiciones previas sobre las caracterı́sticas de los datos. Algunas de las caracterı́sticas adicionales, que han permitido que las RNAs puedan ser utilizadas en la predicción de series de tiempo financieras, es que éstas son tolerantes al ruido, tienen la habilidad de aprender sistemas complejos aún cuando los datos disponibles estén incompletos, y por último, son flexibles pues tienen la destreza de aprender sistemas dinámicos. En el área de la predicción financiera, el tipo de red más popular es el Perceptrón Multicapas, debido a su arquitectura simple pero hábilmente poderosa en la solución de problemas. Sin embargo, el perceptrón multicapas padece de algunas debilidades,.

(13) 1.1 Planteamiento del Problema. 2. dentro de las cuales cabe mencionar: el ajuste de un gran número de parámetros y el sobre-ajuste. El sobre-ajuste, es una situación crı́tica que frecuentemente produce una generalización deficiente, esto se produce cuando la red termina memorizando los datos de entrenamiento. Este problema de generalización ha sido de gran inquietud para los investigadores. Por otro lado, hace pocos años fue desarrollado un nuevo método conocido como Máquinas de Vectores Soporte (MVS), que representa otra alternativa para realizar predicciones de series de tiempo financieras. Originalmente, las máquinas de vectores soporte fueron desarrolladas para resolver problemas de clasificación. Sin embargo, gracias a la función de pérdida ε-insensible de Vapnik, las máquinas de vectores soporte han sido extendidas para resolver problemas de regresión no lineal. A diferencia de la mayorı́a de los modelos de RNAs, los cuales implementan el principio de la minimización del riesgo empı́rico, las máquinas de vectores soporte implementan el principio de la minimización del riesgo estructural, con lo cual se encuentra eventualmente mejor desempeño de generalización que los obtenidos por las redes neuronales artificiales. Finalmente, otro mérito de máquinas de vectores soporte, es que el entrenamiento de éstas es equivalente a resolver un problema de programación cuadrática. Esto significa que la solución de una máquina de vectores soporte es única, óptima y libre de mı́nimos locales, a diferencia del entrenamiento de redes neuronales que requieren la solución de un problema de optimización no lineal, corriendo el riesgo de que el algoritmo de entrenamiento se quede atrapado en un mı́nimo local.. 1.1. Planteamiento del Problema. A lo largo del tiempo se han utilizado diversos métodos en la predicción de series de tiempo financieras, esperando encontrar cada vez mejores resultados. Por ello la utilización de un método novedoso conocido como Máquinas de Vectores Soporte en.

(14) 1.2 Objetivos. 3. este proyecto.. 1.2. Objetivos. 1.2.1. Objetivo General. Predecir el Índice Bursátil Caracas con el mayor grado de exactitud posible utilizando Máquinas de Vectores Soporte, para lo cual se compararán los resultados con los obtenidos a través de una Red Neuronal Artificial.. 1.2.2. Objetivos Especı́ficos. • Examinar la terminologı́a asociada al campo financiero. • Estudiar la teorı́a asociada a series de tiempo. • Explorar la teorı́a relacionada con los métodos Redes Neuronales Artificiales y Máquinas de Vectores Soporte. • Examinar el uso del software Neuro Solutions 5.0 y Weka 3.4.8 para la predicción de series de tiempo a través de los métodos bajo consideración. • Predecir el Índice Bursátil Caracas como caso de serie financiera, con Redes Neuronales Artificiales, y con Máquinas de Vectores Soporte, para luego comparar los resultados.. 1.3. Organización del Documento.. En este documento se presentan 6 capı́tulos a parte de este primer capı́tulo Introductorio. En el Capı́tulo 2 se presenta una breve historia de la Bolsa de Valores y también se definen algunos términos relacionados con el campo financiero. El Capı́tulo 3 aporta las nociones básicas de las series de tiempo. En el Capı́tulo 4 se muestran los fundamentos teóricos de las Redes Neuronales Artificiales que contribuyen al desarrollo de este estudio. El Capı́tulo 5 contiene teorı́a relacionada al método de las Máquinas.

(15) 1.3 Organización del Documento.. 4. de Vectores Soporte. El Capı́tulo 6 se centra en la parte experimental de este estudio, aquı́ se muestran tanto los experimentos como resultados obtenidos de la utilización de los métodos Redes Neuronales Artificiales y Máquinas de Vectores Soporte en la predicción del IBC. Finalmente en el Capı́tulo 7 se presentan las conclusiones y recomendaciones de este estudio. Es importante hacer notar, que este estudio pretende aportar un conocimiento sobre el desempeño de las Máquinas de Vectores Soporte en la predicción del IBC, de modo que esto sirva de referencia para la utilización del mismo en la predicción de otro tipo de series de tiempo financieras..

(16) Capı́tulo 2 Bolsa de Valores En este capı́tulo se presenta una breve historia de la Bolsa de Valores, de igual manera se presenta en forma muy resumida la historia de la Bolsa de Valores de Caracas (BVC). También se define el Índice Bursátil Caracas (IBC) y algunos conceptos financieros básicos necesarios para el entendienmiento de éste.. 2.1. Historia de la Bolsa de Valores. El origen de la Bolsa como institución data de finales del siglo XV en las ferias medievales de la Europa Occidental.. En esta feria se inició la práctica de las. transacciones de valores mobiliarios y tı́tulos. El término “bolsa” apareció en Brujas, Bélgica concretamente en la familia de banqueros Van der Burser, en cuyo palacio se organizó un mercado de tı́tulos valores. En 1460 se creó la Bolsa de Amberes, que fue la primera institución bursátil en sentido moderno.. Posteriormente, se. creó la Bolsa de Londresen 1570, en 1595 la de Lyón, Francia y en 1792 la de Nueva York, siendo ésta la primera en el continente americano. La Bolsa de Buenos Aires, la de México y la de Venezuela fueron creadas a fines del siglo XIX. (Araque 2003).

(17) 2.2 Definición de la Bolsa de Valores. 2.2. 6. Definición de la Bolsa de Valores. Según (Araque 2003) La bolsa de valores se puede definir como mercados organizados y especializados, en los que se realizan transacciones con tı́tulos valores por medio de intermediarios autorizados, conocidos como Casas de Bolsa ó Puestos de Bolsa. Las Bolsas ofrecen al público y a sus miembros las facilidades, mecanismos e instrumentos técnicos que facilitan la negociación de tı́tulos valores susceptibles de oferta pública, a precios determinados mediante subasta.. 2.3. Principales Caracterı́sticas de la Bolsa de Valores. Según (Araque 2003) las principales caracterı́sticas de la Bolsa de Valores son: • Pone en contacto a las empresas con las personas que ahorran. • Proporciona liquidez al crear un mercado de compraventa • Permite a los pequeños ahorradores acceder al capital de grandes sociedades. • Sirve como ı́ndice de la evolución de la economı́a. • Determina el precio de las sociedades a través de la cotización. • Proporciona protección frente a la inflación, al obtenerse normalmente unos rendimientos mayores que otras inversiones.. 2.4. Bolsa de Valores de Caracas. Es una institución de carácter privado organizada de acuerdo con a Ley venezolana para facilitar la negociación de tı́tulos valores autorizados por los organismos competentes y que actúan bajo la vigilancia de la Comisión Nacional de Valores. La Bolsa, tiene un local abierto al público donde antes acudı́an los corredores a la rueda, y desde.

(18) 2.5 Términos Financieros. 7. 1992 también concurren algunos corredores pero la mayorı́a operan desde sus casas de bolsa, interconectados por una red de computadoras enlazadas vı́a microondas y fibra óptica (el Sistema de Conexión Remota). El público tiene acceso a la Sala de Inversionistas de la Bolsa, desde donde, a través de estaciones de consulta se pueden observar las transacciones. Otros inversionistas conocen en tiempo real cotizaciones y precios de las sesiones de mercado desde terminales remotos ubicados en diferentes ciudades y paı́ses, mientras que el mayor volumen de personas e instituciones sabe de los resultados de la Bolsa a través de Internet y variados medios de comunicación. (Bolsa de Valores de Caracas) La Bolsa de Valores de Caracas cuenta en la actualidad con tres ı́ndices, uno de carácter general, el Índice Bursátil de Caracas (IBC), y dos sectoriales, el Índice Financiero y el Índice Industrial. Aquı́ se define unicamente el primero por ser el de interés en el desarrollo de este proyecto,. “El Indice Bursátil de Caracas (IBC) es el promedio aritmético de la capitalización de cada uno de los 16 tı́tulos de mayor capitalización y liquidez negociados en el mercado accionario de la Bolsa de Valores de Caracas” (Bolsa de Valores de Caracas).. 2.5. Términos Financieros. En esta sección se presentan algunos términos financieros, con el objetivo de dar una visión más clara del concepto de IBC. Estos términos fueron tomados textualmente del glosario de la Bolsa de Valores de Caracas. • Acción: tı́tulo valor de carácter negociable que representa un porcentaje de participación en la propiedad de la compañı́a emisora del tı́tulo. Las acciones son emitidas por las empresas para obtener capital..

(19) 2.5 Términos Financieros. 8. • Casa de Bolsa: sociedad o casa de corretaje autorizada por la Comisión Nacional de Valores para realizar todas aquellas actividades de intermediación de tı́tulos valores y actividades conexas. Cuando una sociedad de corretaje es admitida en una bolsa de valores puede emplear la denominación casa de bolsa. A la Bolsa de Valores de Caracas pertenecen 63 casas de bolsa, siendo cada una propietaria de una acción y habiendo sido aprobado su ingreso como miembro por la institución. • Capital: es la suma de todos los recursos, bienes y valores movilizados para la constitución y puesta en marcha de una empresa, representado por las acciones comunes y preferidas emitidas por la referida empresa. Cantidad invertida en una empresa por los propietarios, socios o accionistas. Podrı́a tener dos conceptos ligeramente diferenciados. En términos de economı́a, se refiere a maquinarias, fábricas e inventario requerido para producir otros productos. En términos de un inversionista puede significar el total de recursos financieros utilizados en la adquisición de valores, activos fijos, otros bienes, dinero efectivo, etc. • Capitalización Bursátil: resulta de multiplicar el número de acciones en circulación de una compañı́a por su precio de mercado. Indica el valor de mercado de la compañı́a. • Cartera de Valores: conjunto de tı́tulos valores en poder de una persona natural o jurı́dica. • Corredor de Tı́tulos Valores: el Corredor Público de Tı́tulos Valores es una persona, natural o jurı́dica, que efectúa operaciones de corretaje con tı́tulos valores tales como acciones, bonos y otros instrumentos, dentro o fuera de la Bolsa, con autorización y supervisión de la Comisión Nacional de Valores. Un Corredor puede actuar en el mercado de capitales en forma particular o a través de Sociedades de Corretaje y Casas de Bolsas, que cumplan con los rangos patrimoniales autorizados. De igual manera, puede desempeñarse en el ejercicio independiente de su profesión, con la salvedad que, para poder ejecutar sus.

(20) 2.5 Términos Financieros. 9. operaciones a través de la Bolsa de Valores, de no poseer un puesto en la misma, deberá utilizar los servicios de una Sociedad o Corredor que si lo tenga. • Cotización: precio registrado en una bolsa cuando se ingresa una postura de compra o de venta o cuando se realiza una negociación de valores. Valor de acciones y otros instrumentos que se transan en la Bolsa. • Demanda: en la Bolsa, cantidad de acciones u otros tı́tulos valores que los agentes bursátiles o sus clientes están dispuestos a adquirir a precios y circunstancias determinadas. • Índice: es un indicador estadı́stico que tiene por objeto medir las variaciones o movimiento del mercado bursátil, o de un fenómeno económico referido a un valor que se toma como base en un momento dado. La bolsa posee el IBC ó Indice Bursátil de Capitalización, el Indice Financiero y el Indice Industrial. • Inversión: es la aplicación de recursos económicos al objetivo de obtener ganancias en un determinado perı́odo. En el sentido bursátil, significa comprar acciones o tı́tulos valores para recibir un ingreso, para efectuar una ganancia mediante el gradual aumento de los precios o para lograr ambas finalidades. • Liquidez: cálculo y resultado de una operación sobre tı́tulos valores, de crédito o de cualquier otro bien o valor. El perı́odo para liquidar una operación bursátil, desde el momento en que se ejecuta a través del sistema de transacción hasta el momento en que se liquida, es de tres (3) dı́as. Este cambio está vigente a partir del 1◦ de Julio de 2001. • Mercado Bursátil: lo forman las entidades u operadores dentro de las bolsas clásicas. La formación de los precios en este mercado resulta de la aplicación de los sistemas oficiales de contratación de cada Bolsa. • Mercado de Capitales: algunos economistas definen el Mercado de Capitales como el motor de la economı́a de un paı́s; es decir, a través de este mercado, el Ahorro se transforma en Inversión, y la inversión a su vez genera el Crecimiento Económico necesario para el desarrollo de un paı́s. En otras palabras, el Mercado.

(21) 2.5 Términos Financieros. 10. de Capitales como cualquier otro mercado financiero, funge como un canalizador del ahorro interno a objeto de ofrecer un rendimiento al inversionista; mientras que para las empresas de un paı́s, el Mercado de Capitales se constituye como una fuente para obtener fondos, explotando ası́ su crecimiento económico. • Oferta Pública: es el mecanismo mediante el cual se ofrecen públicamente tı́tulos valores. En Venezuela, la oferta pública se rige por la Ley de Mercado de Capitales. Las Ofertas Públicas Iniciales son aquellas dirigidas por primera vez hacia el público inversionista. • Valor: la Ley de Mercado de Capitales establece que son valores, las acciones de sociedades, las obligaciones y los demás emitidos en masa que posean iguales caracterı́sticas y otorguen los mismos derechos dentro de su clase..

(22) Capı́tulo 3 Series de Tiempo En este capı́tulo se presentan algunas nociones relacionadas con las series de tiempo, necesarias para describir la naturaleza del trabajo. 3.1. Introducción al Análisis de Series de Tiempo y Predicción. La clave de un buen funcionamiento de cualquier institución, empresa, incluso del hogar radica en una buena planificación; ası́ por ejemplo, el gobierno nacional debe planear los ingresos y egresos futuros. Ası́ también, diariamente firmas comerciales realizan planes de venta, de inversión, de producción, de mercadeo, entre otros, para hacer frente a la competencia corriente y mantener un crecimiento constante, es por estas razones que el análisis de series de tiempo durante muchos años ha contribuido a la planificación y toma de decisiones en todo tipo de organizaciones, ya que este análisis tiene como objetivo principal realizar predicciones. La generación de predicciones precisas y útiles implica dos consideraciones básicas. La primera consiste en obtener datos que sean aplicables para la tarea de predicción y que contengan suficiente información que pueda producir predicciones precisas. El segundo factor clave, es la selección de una buena técnica que utilice al máximo la información contenida en los datos y patrones que éstos presentan..

(23) 3.2 Definición de una Serie de Tiempo. 12. Cuando se tiene a la mano buenos datos se puede empezar con la importante tarea de explorar los patrones de dichos datos. Esta tarea comprende varios pasos: observación de los datos, compresión de los datos y el uso de varios métodos gráficos que permitan visualizar con más detalle los datos. Con frecuencia, es útil en el análisis de series de tiempo realizar una gráfica de la misma, ya que ésta permite tener una mejor visión del comportamiento de los datos.. 3.2. Definición de una Serie de Tiempo. Según Murray (2000), según Murray (2000), es un conjunto de observaciones hechas en momentos determinados y ordenadas cronológicamente, donde generalmente estas observaciones son realizadas a intervalos de tiempo iguales. Dicho de otra manera, una serie de tiempo es una colección de observaciones Y1 , Y2 , ..., YT de una variable Y (de naturaleza aleatoria), tomadas en los momentos t1 , t2 , ..., tT Son innumerables las aplicaciones de series de tiempo que se pueden citar, en distintas áreas del conocimiento, tales como: en economı́a, fı́sica, geofı́sica, quı́mica, electricidad, en demografı́a, en marketing, en telecomunicaciones, en transporte, entre otros. En la Tabla 3.1 se ilustran ejemplos de series de tiempo.. Figura 3.1: Serie de tiempo..

(24) 3.3 Objetivos del Análisis de Series de Tiempo. Series de Tiempo Series económicas:. 13. Ejemplos Precios de un artı́culo Tasas de desempleo Índice de precios, etc.. Series fı́sicas:. Meteorologı́a Cantidad de agua caı́da Temperatura máxima diaria Energı́a solar, etc.. Series geofı́sica:. Series sismológicas. Series demográficas:. Tasas de crecimiento de la población Tasa de natalidad, mortalidad. Series de marketing:. Series de demanda, gastos, ofertas. Series de transporte:. Series de tráfico. Tabla 3.1: Ejemplos de series de tiempo. 3.3. Objetivos del Análisis de Series de Tiempo. Uno de los objetivos más conocidos en cuanto al análisis de series de tiempo, es el de predicción. Sin embargo, existen otros objetivos en el análisis que no dejan de ser importantes, como es el caso de la descripción, que consiste en graficar los datos para de esta manera observar los posibles patrones de comportamiento que conllevan a obtener medidas descriptivas simples de la serie. También es necesario mencionar que de acuerdo a la naturaleza de los datos se pueden tener objetivos especı́ficos en relación al análisis de series de tiempo; por ejemplo, cuando una serie de tiempo es construida con mediciones de calidad de cierto proceso productivo, es lógico pensar que el objetivo del análisis de esta serie es el de llevar el control del proceso.. 3.4. Métodos de Predicción. Se pueden emplear dos métodos básicos de predicción: 1. Las técnicas de predicción cualitativas..

(25) 3.4 Métodos de Predicción. 14. 2. Las técnicas de predicción cuantitativas. Técnicas de Predicción Cualitativas:. se basan en el juicio humano, las. predicciones se hacen sobre bases subjetivas usando el criterio de la intuición mas que la manipulación de datos históricos. Las técnicas cualitativas comunes incluyen el método de Delphi, curvas de crecimiento, investigación de mercado y grupos de enfoque. Con frecuencia, estas técnicas son importantes en el esquema general de la predicción. Técnicas de Predicción Cuantitativas: se utilizan cuando existen suficientes datos históricos disponibles y cuando se juzga que estos datos son representativos de un futuro desconocido (Maddala 1996). Esta apreciación es un paso importante en el proceso de la predicción, ya que todas las técnicas cuantitativas se apoyan en la suposición de que el pasado puede extenderse hacia el futuro de manera significativa para proporcionar predicciones precisas. Las técnicas cuantitativas se clasifican en dos categorı́as: estadı́sticas y determinı́sticas. Las técnicas estadı́sticas se enfocan completamente en patrones, cambios en los patrones y perturbaciones por influencia aleatorias. Estas técnicas obtienen valores futuros de la serie basándose en el análisis de sus valores pasados, se intenta encontrar un patrón en estos datos, asumiendo que el patrón encontrado continuará en el futuro y se extrapola para encontrar las predicciones (Maddala 1996). Entre estas técnicas se pueden mencionar las siguientes: promedios móviles y atenuación exponencial, descomposición de una serie de tiempo y proyecciones de tendencia y la metodologı́a de Box-Jenkis. Las técnicas determinı́sticas (causales) comprenden la identificación y determinación de las relaciones entre la variable a predecir y las variables de influencia. Una vez que estas variables han sido identificadas, se desarrolla un modelo estadı́stico que describa la relación entre las variables de influencia y la variable a predecir, la relación estadı́stica derivada es entonces usada para predecir la variable de interés, entre estas técnicas se incluyen los modelos de regresión y regresión múltiple, indicadores básicos,.

(26) 3.5 Series de Tiempo Estacionarias y no Estacionarias. 15. modelos econométricos y el modelo de Box-Jenkis (modelo de función de transferencia). Este estudio está centrado en las técnicas de predicción cuantitativas, haciendo uso de los métodos redes neuronales artificiales y máquinas de vectores soporte para obtener las predicciones. Estos métodos serán explicados en los Capı́tulos 4 y 5 respectivamente.. 3.5. Series. de. Tiempo. Estacionarias. y. no. Estacionarias Una serie de tiempo estacionaria es aquella cuyas propiedades estadı́sticas, como la media, la varianza, la covarianza (en los diferentes rezagos), permanecen iguales sin importar en el momento en el que se midan; es decir, son invariantes respecto al tiempo. Se dice que una serie que no presenta decrecimiento o declinación es estacionaria (Gujarati 2004). Los coeficientes de autocorrelación de datos estacionarios caen a cero después del segundo o tercer periodo de desfasamiento. Una serie que presenta tendencia se dice que no es estacionaria, por otro lado, los coeficientes de autocorrelación de una serie no estacionaria son significativamente diferentes de cero durante varios periodos.. 3.6. Pruebas de Estacionariedad. Las pruebas de estacionariedad permiten conocer si una serie de tiempo es estacionaria o no. Aunque hay varias pruebas para determinar la estacionariedad aquı́ se describen dos: 1. Prueba Gráfica: antes de llevar a cabo una prueba formal, siempre es aconsejable graficar la serie de tiempo bajo estudio, ya que esta gráfica proporciona una clave inicial respecto a la posible naturaleza de la serie de tiempo. Por ejemplo, si al graficar una serie de tiempo se observa que a lo largo del periodo de estudio existe un incremento; es decir, muestra una tendencia ascendente, ésto puede ser un indicio de que la media de la serie bajo estudio está variando. Esto tal.

(27) 3.6 Pruebas de Estacionariedad. 16. vez indica que la serie es no estacionaria, esta intuición es el comienzo para una prueba más formal de estacionariedad. 2. Función de Autocorrelación (FAC) y Autocorrelograma:. Según. Gujarati (2004), una prueba sencilla de estacionariedad está basada en la denominada función de autocorrelación (FAC). La FAC al rezago k denotada por ρk , se define como: ρk =. γk γ0. (3.1). donde γk es la covarianza al rezago k y γ0 es la varianza. ρk es un número sin unidad de medida, o puro, debido a que la covarianza y la varianza están medidas en las mismas unidades, ρk es un número que se encuentra entre -1 y 1 como cualquier coeficiente de correlación. La gráfica de ρk frente a k se conoce como correlograma poblacional. Debido a que en la práctica se utilizan muestras para el análisis de series de tiempo, resulta necesario calcular las funciones de autocorrelación muestral, ρbk . Para tal efecto, se debe calcular primero la covarianza muestral al rezago k, γbk , y la varianza muestral k, γb0 , que están definidas como: Pn−k (Yt − Y )(Yt+k − Y ) γbk = t=1 (3.2) n Pn γ0 =. t=1 (Yt. −Y). n. (3.3). donde n es el tamaño de la muestra y Y es la media muestral.. Por consiguiente, la función de autocorrelación muestral al rezago k es: Pn−k (Yt − Y )(Yt+k − Y ) γbk ρk = = t=1 Pn γ0 t=1 (Yt − Y ). (3.4). La gráfica de ρbk frente a k se conoce como autocorrelograma simple. Un autocorrelograma es una herramienta gráfica que se emplea para exhibir las autocorrelaciones para varios desfasajes o rezagos en una serie de tiempo..

(28) 3.6 Pruebas de Estacionariedad. 17. Cuando las autocorrelaciones en distintos rezagos se ubican cerca de cero, es imagen de un autocorrelograma de una serie de tiempo estacionaria, mientras que cuando los coeficientes de autocorrelación comienza en un nivel muy alto y disminuye de manera muy lenta hacia cero, conforme el rezago se prolonga, se está en presencia de un autocorrelograma de una serie de tiempo no estacionaria..

(29) Capı́tulo 4 Redes Neuronales Artificiales (RNA) En este capı́tulo se presenta la teorı́a de un método inspirado en el funcionamiento del cerebro humano: Redes Neuronales Artificiales, utilizada como herramienta en la solución de problemas de clasificación, predicción, reconocimiento de patrones, entre otros.. 4.1. Introducción. a. las. Redes. Neuronales. Artificiales Con el transcurrir del tiempo, se ha visto como investigadores y cientı́ficos han tenido como objetivo y principal preocupación el diseño y construcción de máquinas capaces de realizar algunas tareas o procesos con cierta inteligencia. Gracias a estas inquietudes hace algunos años surgió un área del conocimiento denominada Inteligencia Artificial, compuesta por un número de métodos que tienen como principal objetivo imitar computacionalmente las destrezas concernientes a la inteligencia del ser humano. Una de estas técnicas que forma parte de la Inteligencia Artificial ha tenido como motivo de inspiración lo que se podrı́a llamar el computador del ser humano; el cerebro. El cerebro es un procesador de información con unas caracterı́sticas muy notables; es.

(30) 4.1 Introducción a las Redes Neuronales Artificiales. 19. capaz de procesar a gran velocidad grandes cantidades de información provenientes de los sentidos, combinarla o compararla con la información almacenada y dar respuestas adecuadas incluso en situaciones nuevas. Si bien se desconoce considerablemente la forma en la que el cerebro aprende a procesar la información, se ha desarrollado un método que como se mencionó anteriormente trata de imitar las habilidades de éste; denominado Redes Neuronales Artificiales. Detrás de este método, está la elaboración o construcción de un modelo que supone en primer lugar la abstracción de las caracterı́sticas esenciales de las neuronas biológicas, y en segundo lugar, la implementación del modelo en una computadora que se pueda simular. Las redes neuronales son una forma de emular algunas caracterı́sticas propias de los seres humanos, como la propiedad de aprender y asociar hechos. El hombre es capaz de resolver muchas situaciones acudiendo a la experiencia acumulada. Ası́ pues, parece claro que la solución a los problemas que requieren de experiencia es la construcción de sistemas que sean capaces de reproducir esta caracterı́stica humana. Asimismo, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que se dispone para que un sistema sea capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es un nuevo sistema para el tratamiento de información, cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano: la neurona. Todos los procesos del ser humano se relacionan de una u otra manera con la actividad o inactividad de las neuronas. Las neuronas son componentes relativamente simples del ser humano, pero cuando se tienen millares de éstas conectadas, como es el caso del cerebro, se hacen muy poderosas. Lo antes mencionado es lo que ha permitido que las Redes Neuronales Artificiales.

(31) 4.2 Fundamentos de las Redes Neuronales Artificiales. 20. tengan un campo de diversas aplicaciones. Dentro de las aplicaciones más exitosas de las redes neuronales artificiales se pueden mencionar: • Procesamiento de imágenes y voz. • Reconocimiento de patrones. • Predicción. • Control y optimización. • Filtrado de señales.. 4.2. Fundamentos. de. las. Redes. Neuronales. Artificiales 4.2.1. Modelo Biológico. Según Hilera & Martı́nez (2000) se estima que el cerebro humano contiene más de cien mil millones de neuronas, estudios sobre la anatomı́a del cerebro humano concluyen que hay más de 1000 sinápsis a la entrada y a la salida de cada neurona. Es importante notar que aunque el tiempo de conmutación de la neurona (unos pocos milisegundos) es casi un millón de veces menor que en los actuales elementos de las computadoras, ellas tienen una conectividad miles de veces superior que las actuales supercomputadoras. Las neuronas y las conexiones entre ellas (sinápsis) constituyen la clave para el procesado de la información.. 4.2.2. Definición de una Neurona Biológica. “Las neuronas son células nerviosas que constituyen los elementos primordiales del sistema nervioso central. En general las neuronas son capaces de recibir señales provenientes de otras neuronas, procesar estas señales, generar pulsos nerviosos, conducir.

(32) 4.2 Fundamentos de las Redes Neuronales Artificiales. 21. estos pulsos y transmitirlos a otras neuronas” (Colina & Rivas 1998). En la Figura 4.1 se muestra un dibujo esquemático de una neurona.. Figura 4.1: Dibujo esquemático de una neurona biológica. Las dendritas son un conjunto de extensiones tubulares, las cuales son las receptoras y transportan señales eléctricas al cuerpo de la célula. El cuerpo celular contiene el núcleo y tiene forma piramidal o esférica, aquı́ se ejecutan todas las transformaciones necesarias para la vida de la neurona (Colina & Rivas 1998). El axón difiere de las dendritas en su forma, es la conexión de salida usada por la neurona para emitir señales. Las sinapsis, son las unidades funcionales y estructurales elementales que median entre las interacciones de las neuronas. En las terminaciones de las sinapsis se encuentran unas vesı́culas que contienen unas sustancias quı́micas llamadas neurotransmisores, que ayudan a la propagación de las señales electroquı́micas de una neurona a otra..

(33) 4.3 Redes Neuronales Artificiales. 4.3. 22. Redes Neuronales Artificiales. 4.3.1. Definición. “Una red neuronal artificial es un modelo diseñado para emular algunas de las caracterı́sticas computacionales del cerebro humano. Este tipo de modelo incluye tanto caracterı́sticas funcionales como configuraciones topológicas” (Colina & Rivas 1998).. 4.3.2. La Neurona Artificial. La neurona artificial pretende imitar las caracterı́sticas más importantes de las neuronas biológicas. Ella es una unidad de procesamiento de información primordial para el funcionamiento de una red neuronal.. 4.3.3. Analogı́a entre la Neurona Artificial y Biológica. “La operación de la neurona es usualmente explicada como un proceso donde la célula ejecuta una suma de señales que llegan por sus dendritas. Cuando esta suma es mayor que cierto umbral, la neurona responde transmitiendo un pulso a través de su axón. Si la suma es menor que el umbral, la neurona permanece inactiva” (Colina & Rivas 1998). La Figura 4.2 ilustra la analogı́a existente entre la neurona artificial y biológica.. 4.3.4. Modelo de una Neurona Artificial. Los elementos que se pueden identificar en un modelo de una neurona artificial son los siguientes: • Entradas o Nodos de Entrada: son los valores que se le suministra a la red, estos depende del tipo de problema en estudio. • Salidas o Nodos de Salida: son los valores que arroja la red como resultado del problema en estudio. • Pesos: representa la influencia que tiene cada entrada sobre la neurona..

(34) 4.3 Redes Neuronales Artificiales. 23. Figura 4.2: Analogı́a entre la neurona artificial y biológica. • Un Punto de Suma de Entradas Ponderadas: este punto no es más que la sumatoria de todas las señales de entrada a la neurona multiplicadas por sus correspondientes pesos. • Función de Activación: esta función limita el rango de la salida de la neurona y la misma puede ser lineal o no lineal. La determinación del tipo de función de activación depende del problema que se quiera resolver. • Sesgo: es equivalente al peso de una entrada fija igual a 1. Este valor permite que haya una cierta flexibilidad en la salida de cada neurona, lo que genera un mejor ajuste de la salida obtenida con la salida deseada. Todos estos elementos del modelo de una neurona artificial se pueden visualizar en la siguiente figura.. 4.3.5. Funciones de Activación. Existen diversos tipos de funciones de activación y su elección depende del criterio del investigador y del problema en estudio. Aquı́ se mencionaran solamente las funciones de activación comúnmente utilizadas para los problemas de predicción..

(35) 4.3 Redes Neuronales Artificiales. 24. Figura 4.3: Analogı́a entre la neurona artificial y biológica. • Función Lineal: la entrada a la función de activación es igual a la salida. Se usa en diversos tipos de redes, con frecuencia en la capa de salida. En forma matemática se puede expresar como: Γ(n) = n. (4.1). y gráficamente:. Figura 4.4: Función lineal. • Función Sigmoidal o Logı́stica: se trata de una función continua no lineal. La función sigmoidal posee un rango comprendido entre 0 y 1. Esto, aplicado a las unidades de proceso de una red neuronal artificial significa que, sea cual sea la entrada, la salida estará comprendida entre 0 y 1. Este tipo de función es recomendada para problemas de predicción. Su expresión matemática es:.

(36) 4.4 Arquitectura de una Red Neuronal Artificial. Γ(n) =. 1 1 + e−n. 25. (4.2). y en forma gráfica se puede observar en la Figura 4.5. Figura 4.5: Función sigmoidal o logı́stica. • Función Tangencial Hiperbólica: es similar a la función sigmoidal pero en este caso la respuesta es 1 para el valor máximo y -1 para el mı́nimo. Matemáticamente se representa como: Γ(n) = tanh(n). (4.3). y en forma gráfica,. Figura 4.6: Función tangencial hiperbólica.. 4.4. Arquitectura de una Red Neuronal Artificial. Cuando se habla de la arquitectura de una red neuronal artificial, se refiere a la estructura; es decir, la forma como está organizada la red. En la organización de una.

(37) 4.4 Arquitectura de una Red Neuronal Artificial. 26. red influyen los siguientes componentes: capa de entrada, capa(s) oculta(s), capa de salida, y por último la conexión y dirección de la red. Estos componentes se describen a continuación en forma resumida. • Capa de Entrada: está formada por los nodos que reciben directamente la información proveniente de las fuentes externas a la red. Esta información puede requerir una etapa de preprocesado para mejorar el conjunto de datos originales a fin de lograr un mejor desempeño de la red. El número de entradas se determina de acuerdo al problema en estudio. • Capas o Niveles Ocultos: se les denomina de esta manera por encontrarse ubicadas entre la capa de entrada y la capa de salida; estas capas no tienen contacto directo con el entorno exterior y son las encargadas de extraer, procesar y capturar la información. El número de niveles o capas ocultas puede estar entre cero y un número elevado, y éste debe ser especificado en la arquitectura.. El número de capas ocultas depende en gran parte del problema en estudio, pero en general, un problema podrá representarse bastante bien con una o dos capas (Hilera & Martı́nez 2000). De igual forma el número de neuronas por capa es variable, una de las formas de determinar este número es por ensayo y error, aunque también se puede tomar como un criterio útil el promedio entre el número de entradas y salidas de la red (Collantes 2001). • Capa de Salida: está formada por los nodos que transfieren la información de la red hacia el exterior. El número de nodos o neuronas de salida dependerá del problema en estudio. • Conexiones: las conexiones entre los nodos de una red neuronal están relacionada con la forma en que las salidas de las neuronas se canalizan para convertirse en entradas de otras neuronas. Las conexiones que unen a los nodos que forman una red neuronal artificial tienen asociado un peso, que es el que hace que la red adquiera conocimiento. De acuerdo a las conexiones entre las capas las redes se pueden clasificar como:.

(38) 4.4 Arquitectura de una Red Neuronal Artificial. 27. – Totalmente Conectadas: cada nodo o neurona de una capa está conectada a todas las neuronas de un nivel o capa superior. – Parcialmente Conectadas: la salida de las neurona de una capa son entradas de algunas neuronas de la siguiente capa. • Dirección: es la forma en que fluye la información de una capa a otra. Las redes según la dirección se puede clasificar en: – Redes de Propagación hacia Adelante: son aquellas donde las salidas de las neuronas de una capa sólo se propagan a las neuronas de la capa siguiente. La información fluye solamente de la entrada a la salida. En la Figura 4.7 se ilustra una red de propagación hacia adelante. – Redes de Propagación hacia Atrás: son aquellas donde las salidas de las neuronas de una capa pueden estar conectadas como entradas de neuronas de capas previas. Esto se muestra en la Figura 4.8. – Redes Recurrentes: son redes de propagación hacia atrás que forman lazos cerrados; es decir, la salida de una neurona es entrada a la misma neurona. Las redes de propagación hacia atrás que tienen lazos cerrados son sistemas recurrentes. En la Figura 4.9 se ilustra este tipo de red. – Redes de Alimentación Lateral: son redes en las cuales las salidas de las neuronas pueden ser entradas de neuronas de la misma capa. Esto se puede observar en la Figura 4.10.. Figura 4.7: Red de propagación hacia adelante ..

(39) 4.4 Arquitectura de una Red Neuronal Artificial. 28. Figura 4.8: Red de propagación hacia atrás.. Figura 4.9: Red recurrente.. Figura 4.10: Red con alimentación lateral. Es importante mencionar que en este estudio se utilizará una red perceptrónica multicapas, cuya arquitectura está constituida por: n neuronas en la capa de entrada, m neuronas en la capa de salida y al menos una capa oculta de neuronas internas. Esta red es totalmente conectada y de propagación hacia adelante. La Figura 4.11 ilustra la arquitectura de una red neuronal perceptrónica multicapas..

(40) 4.5 Entrenamiento. 29. Figura 4.11: Arquitectura de una red perceptrónica multicapas.. 4.5. Entrenamiento. El entrenamiento requiere la presencia repetida de un número relativamente amplio de patrones que permiten que la red aprenda, haciendo modificaciones en los pesos de las conexiones por medio de alguna regla de aprendizaje. El tipo de aprendizaje más sencillo consiste en presentar patrones de entrada a la red junto a los patrones de salida deseados, para cada patrón de entrada. A este tipo de aprendizaje se le denomina aprendizaje supervisado. Si no se le presentan a la red patrones de salida deseados entonces el aprendizaje es denominado aprendizaje no supervisado, ya que no se le indica a la red que resultados debe dar, sino que se le deja seguir alguna regla de auto-organización. Dentro del entrenamiento supervisado se encuentran las siguientes categorı́as:.

(41) 4.5 Entrenamiento. 30. • Aprendizaje por Corrección de Error: este aprendizaje tiene como objetivo modificar los pesos de la red en función de la diferencia que se obtiene entre la salida de la red y la salida deseada; es decir, en función del error que comete la red a la salida. Dentro de este tipo de aprendizaje se pueden mencionar: la regla delta o regla del mı́nimo error y la regla delta generalizada o algoritmo de retropropagación del error (Backpropagation). • Aprendizaje por Refuerzo: este tipo de aprendizaje es más lento que el aprendizaje por corrección de error. En el aprendizaje por refuerzo no se dispone de un ejemplo completo del comportamiento deseado, es decir, no se indica durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una entrada determinada.. La función del supervisor en este aprendizaje se limita a indicar mediante una señal de refuerzo si la salida obtenida de la red se ajusta a la deseada, (éxito = 1 o fracaso = -1) y en función de ésta se ajustan los pesos basándose en un mecanismo de probabilidades. En este tipo de aprendizaje el supervisor se podrı́a ver como un crı́tico en lugar de un maestro, ya que éste opina sobre la respuesta de la red a diferencia del maestro que le indica a la red la respuesta concreta que deberı́a generar, como es el caso del aprendizaje por corrección de error. • Aprendizaje Estocástico: en el aprendizaje estocástico se realizan cambios aleatorios en los valores de los pesos de las conexiones de la red y se evalúa su desempeño a partir del objetivo deseado y de distribuciones de probabilidad. Como se mencionó anteriormente el tipo de red a utilizada en este proyecto es la red perceptrónica multicapa, por lo que es necesario describir el algoritmo de entrenamiento conocido como Regla Delta Generalizada o Backpropagation utilizado para este tipo de red..

(42) 4.5 Entrenamiento. 4.5.1. 31. Regla Delta Generalizada o Backpropagation. El funcionamiento de la regla Backpropagation consiste en el aprendizaje de un conjunto predefinido de pares entrada-salida dados como ejemplo. Primero se aplica un patrón de entrada como estı́mulo a la red, éste se va propagando a través de todas las capas superiores hasta generar una salida, se compara el resultado en la neurona o neuronas de salida con la salida o salidas que se desean obtener, y se calculan los errores correspondientes a las neuronas de salida. A continuación, estos errores se transmiten hacia atrás, partiendo de la capa de salida a todas las neuronas de la capa intermedia que contribuyen directamente a la salida. Este proceso se repite capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aporte relativo al error total. Basándose en el valor de error obtenido, se reajustan los pesos de las conexiones de cada neurona, de tal forma que la próxima vez que se presente el mismo patrón, la salida estará más cerca de la deseada. El ajuste de los pesos puede ser resuelto por la minimización de la función de error cuadrático medio (Ecuación (4.5)), usando el procedimiento de máximo descenso por gradiente (Ecuación (4.4)) ∆W = −η. ∂E ∂W. (4.4). n. 1X E= (di − yi )2 2 i=1. (4.5). donde di representa la salida deseada, yi corresponde a la salida obtenida y n es el número de patrones de entrenamiento. La minimización del error cuadrático medio no es más que la búsqueda de aquellos pesos que permitan capturar la relación entrada-salida de los patrones de entrenamiento. Existen dos relaciones que permiten el ajuste o modificación de los pesos durante la fase de entrenamiento. El uso de una u otra depende de si dichas modificaciones se están realizando en la capa oculta o capa de salida..

(43) 4.6 Generalización. 32. En función de la nomenclatura de la Figura 4.11, la modificación de los pesos en la capa de salida se realiza mediante la siguiente ecuación: Wij = Wij∗ + η(dk − Ok )f 0 (n)yj. (4.6). donde k simboliza la k-ésima neurona de la capa de salida, j es la j-ésima neurona de la capa previa, Ok representa la k-ésima neurona de la capa de salida, f 0 (n) es la derivada de la funciı́n de activación y η es la tasa de aprendizaje que corresponde a la velocidad con la que la red aprende y puede tomar valores entre 0 y 1. El ajuste de los pesos en la capa oculta se realiza mediante la siguiente ecuación:. Vji =. Vji∗. 0. + ηf (nj )Zi. k X. δok Wji. (4.7). k=1. donde k simboliza la k-ésima neurona de la capa de salida, j es la j-ésima neurona de la capa previa, η es la tasa de aprendizaje, Zi es la i-ésima entrada a los nodos de la capa oculta y δok (Ecuación (4.8)) es el error en la k-ésima neurona de la capa de salida. δok = −(dk − Ok)f 0 (n). 4.6. (4.8). Generalización. Una vez concluida la fase de entrenamiento (supervisado), los pesos de las conexiones entre las neuronas han sido ajustados siguiendo el criterio de minimización del error. En este momento, la red está en capacidad de producir resultados satisfactorios ante un nuevo conjunto de datos llamado conjunto prueba, a esta capacidad se le conoce como generalización. Para que la generalización sea exitosa las entradas suministradas a la red deben contener suficiente información, de modo que se pueda relacionar correctamente las salidas con las entradas, y el conjunto de patrones de entrenamiento debe ser suficientemente representativo del problema en estudio Collantes (2001)..

(44) Capı́tulo 5 Máquinas de Vectores Soporte En este capı́tulo se introduce el método de aprendizaje en base a patrones denominado Máquinas de Vectores Soporte (MVS), que ha tomado gran importancia en el área de Aprendizaje de Máquinas.. 5.1. Introducción a las Máquinas de Vectores Soporte. Durante los últimos 25 años, y de la mano del rápido crecimiento del poder del cálculo de los computadores, una parte importante de la teorı́a de inducción de modelos sobre la base de patrones desarrollada desde los años 50 ha encontrado la plataforma fı́sica necesaria para ser aplicada a problemas reales. La mayorı́a de estos modelos de Aprendizaje abordan dos tipos de problemas: el Reconocimiento de Patrones ó Clasificación y Aproximación de Funciones ó Regresión.. Sin embargo, aunque. han dado muy buenos resultados prácticos, la mayorı́a de los modelos puestos en práctica utilizan métodos de sı́ntesis (entrenamiento) que desembocan frecuentemente en estimaciones locales o en la utilización de métodos empı́ricos para encontrar un modelo general (Tay & Cao 2001). Tal es el caso de las Redes Neuronales Artificiales, Algoritmos Genéticos, entre otros. Las Redes Neuronales Artificiales forman parte de los modelos que tienen como marco.

(45) 5.2 Máquinas de Vectores Soporte (MVS). 34. una teorı́a conocida con el nombre de Máquinas de Aprendizaje (Learning Machines, LM). Esta teorı́a describe las condiciones necesarias y suficientes para la consistencia al minimizar la magnitud del error de entrenamiento. La consistencia significa que se alcanza un nivel aceptable de generalización (una buena descripción para datos no conocidos). El progreso de esta teorı́a fue además la base para el desarrollo de importantes conceptos que desembocarı́an en un nuevo principio, aun más general llamado Minimización de Riesgo Estructural. Gracias al principio de Minimización del Riesgo Estructural se desarrolló un método conocido con el nombre: Máquinas de Vectores Soporte. En los últimos 10 años ha crecido considerablemente la cantidad de aplicaciones e implementaciones de este método, que en su forma original tiene la fundamentación matemática que garantiza que se alcanzará la solución global en un tiempo finito y con mı́nima parametrización (Tay & Cao 2001).. 5.2. Máquinas de Vectores Soporte (MVS). El algoritmo de las MVS desarrollado por Vapnik está basado en la teorı́a del Aprendizaje Estadı́stico. Las MVS en el caso de clasificación tienen como objetivo encontrar un hiperplano óptimo que separe dos clases, (ver Figura 5.1). Para encontrar el hiperplano óptimo hay que minimizar la norma de un vector (w ) que define el hiperplano de separación. Esto es equivalente a maximizar el margen entre dos clases (Hernández et al. 2000). En el caso de regresión las MVS utilizan la función de pérdida ε-insensible que se muestra en la Ecuación (5.1) y Figura 5.2 respectivamente. Si la desviación existente entre los valores predichos y los valores observados es menor que ε, entonces se considera que la función de regresión no comete error alguno. Visualmente, la zona de insensibilidad se podrı́a asemejar a un tubo de diámetro 2ε alrededor de la función objetivo f (x), y cualquier punto que se encuentre fuera de este tubo se considerará un error de entrenamiento (Smola & Schölkopf 1998)..

(46) 5.2 Máquinas de Vectores Soporte (MVS). 35. En otras palabras, el objetivo de las MVS en el caso de regresión es escoger el hiperplano con norma pequeña mientras simultáneamente se minimiza la suma de las distancias de los puntos al hiperplano (ver Figura 5.1). Tanto en clasificación como en regresión se obtiene un problema de Programación Cuadrática.. Figura 5.1: MVS en el caso de clasificación y regresión.. Figura 5.2: Función de pérdida ε-insensible (errores menores que ε no se toman en cuenta).. |y − f (x)| ε =.   . |y − f (x)| − ε. si 0. |y − f (x)| en. otros. >ε casos. (5.1).

(47) 5.3 Formulación Matemática de las MVS para Regresión (Caso Lineal). 5.3. 36. Formulación Matemática de las MVS para Regresión (Caso Lineal). Supongamos que tenemos los datos de entrenamiento, todos de la misma naturaleza. Estos datos se pueden representar de la siguiente manera:{(x1 , y1 , ..., xl , yl )} ⊂ χ x <, donde χ denota el espacio de patrones de entrada para los patrones en <d . Esto podrı́a ser, por ejemplo, tipos de cambio para alguna moneda medida en dı́as subsecuentes junto con los indicadores econométricos correspondientes. Como se mencionó anteriormente en regresión el objetivo es encontrar una función f (x) que tiene a lo sumo ε desviaciones de las respuestas (targets) realmente obtenidas yi para todos los datos del conjunto de entrenamiento. Por lo tanto, no es motivo de preocupación aquellos errores que son menores que ε, pero no acepta ninguna desviación más grande que ésta. Esto puede ser importante si se desea estar seguro de no perder más que ε dinero cuando tratamos con tipos de cambio por ejemplo. Ahora bien, para la formulación del problema, primero se considera el caso de las funciones lineales f , tomando la forma: f (x) = hw, xi + b. w∈χ , b∈<. con. (5.2). Donde x son las representaciones vectoriales de los patrones, w es el vector ortogonal al hiperplano el cual suele denominarse el vector de pesos y < ., . > denota el producto punto en χ. La función representada en la Ecuación (5.2) es utilizada para estimar los datos, esto es obtenido minimizando el riesgo funcional: `. 1X 1 kwk2 + C · |y − f (xi )|ε 2 ` i=1. (5.3). El primer término en la Ecuación (5.3) es conocido como término de regularización, el segundo término representa el error empı́rico y C es la constante regularizadora. (Smola & Schölkopf 1998) El plano de la Ecuación (5.2) implica que uno trata de encontrar un w pequeño. Una manera de asegurar esto es minimizar la norma euclidea, ||w||2 . Formalmente podemos.

(48) 5.3 Formulación Matemática de las MVS para Regresión (Caso Lineal). 37. escribir este problema como una optimización convexa del problema requerido. Formalmente el problema de optimización se puede escribir de la siguiente manera: P̀ |y − f (xi )|ε kwk2 + C · 1` i=1   yi − hw, xi i − b ≤ ε 1 2. M inimizar sujeto a.  hw, xi i + b − yi. ≤. (5.4). ε. La suposición de la Ecuación (5.4) es que existe una función f que aproxima todos los pares (xi , yi ) con la precisión de ε, o en otras palabras, que el problema de optimización convexo es factible. Algunas veces, sin embargo, esto puede no ser el caso, o también podemos querer permitir algunos errores, análogamente al caso del “margen blando” (clasificación). Por lo tanto, en esta formulación también se introducen al problema de la Ecuación (5.4) variables de holgura (en inglés slack) ξi , ξi∗ que tienen como objetivo hacer que las restricciones no se cumplan de manera estricta; es decir, permitir que el error tenga cierta holgura (Smola & Schölkopf 1998). De manera más precisa ξi tiene en cuenta el error de subestimación mientras que ξi∗ tiene en cuenta el error se sobreestimación. Tomando en cuenta estas variables se llega a la siguiente formulación: M inimizar. sujeto a. P̀ kwk2 + C (ξi + ξi∗ ) i=1   y − hw, xi i − b ≤    i hw, xi i + b − yi ≤     ξi , ξi∗ ≥ 1 2. ε + ξi ε+. (5.5). ξi∗. 0. donde la constante C>0 se introduce para controlar el nivel global de penalización del problema. A mayor valor de C, mayor penalización de los errores. En otras palabras C puede verse como un compromiso entre las variables de holgura y la suavidad de la función. Esto se conoce como regularización, y el efecto de regularizar la función se representa gráficamente en la Figura 5.3. Es importante resaltar que las variables ξi , ξi∗ tienen un valor cero para las observaciones de la variable respuesta que se encuentran en el interior del tubo, y se penalizan progresivamente de acuerdo a la función de pérdida considerada (ver Figura 5.4.).

(49) 5.3 Formulación Matemática de las MVS para Regresión (Caso Lineal). 38. Figura 5.3: Ejemplo de regresión sin regularización y con regularización.. Figura 5.4: Representación de la recta de regresión considerando el tubo ε-insensible. Formulación Dual y Programación Cuadrática El problema de optimización de la Ecuación (5.4) puede ser resuelto por programación cuadrática. Además, ésta es la clave para prolongar las máquinas de vectores soporte a funciones no lineales (Smola & Schölkopf 1998). La idea es formular una función de Lagrange tanto para la función objetivo como para las restricciones correspondientes, introduciendo un conjunto de variables duales. Esta función tiene un punto de silla con respecto a las variables originales (primales) y duales en la solución óptima..

(50) 5.3 Formulación Matemática de las MVS para Regresión (Caso Lineal). 39. Especı́ficamente la formulación de la función de la Lagrange es: L =. 1 2. kwk2 + C. −. P̀. (ξi + ξi∗ ) −. i=1. P̀. αi∗. (ε +. ξi∗. P̀. αi (ε + ξi − yi + hw, xi i + b). i=1. (5.6). + yi − hw, xi i − b) −. i=1. P̀. (ηi ξi +. ηi∗ ξi∗ ). i=1. Las variables duales en la Ecuación(5.6) tienen que satisfacer las restricciones de positividad, es decir αi , αi∗ , ηi , ηi∗ ≥ 0. Por la condición de punto de silla las derivadas parciales de L con respecto a las variables originales tienen que desaparecer para la optimalidad. ∂L = ∂b ∂L = ∂w ∂L = ∂ξi ∂L = ∂ξi∗. P̀. (αi∗ − αi ) = 0. i=1. w−. P̀. (αi − αi∗ )x = 0. i=1. (5.7). C − αi − ηi = 0 C − αi∗ − ηi∗ = 0. Sustituyendo la Ecuación (5.7) en (5.6) se obtiene el problema de optimización dual: M aximizar − 21. sujeto. a. P̀.  (αi − αi∗ ) αj − αj∗ hxi , xj i. i,j=1. P̀ P̀ yi (αi − αi∗ ) −ε (αi + αi∗ ) + i=1 i=1    P̀ (α − α∗ ) = 0 i. (5.8). i. i=1. αi , αi∗.   Resolviendo (5.7) para w tenemos: w =. P̀. ∈ [0, C]. (αi , αi∗ )xi y por lo tanto:. i=1. f (x) =. ` X. (αi − αi∗ ) (xi , x) + b. (5.9). i=1. Esto es llamado expansión del vector soporte, es decir w puede ser completamente descrito como una combinación lineal de los patrones de entrenamiento, xi . En cierto sentido, la complejidad de la representación por vectores soporte (VS) de una función.

(51) 5.3 Formulación Matemática de las MVS para Regresión (Caso Lineal). 40. es independiente de las dimensionalidad del espacio de entrada χ, y depende solamente del número de VS. Además, el algoritmo completo puede ser descrito en términos de productos punto entre los datos. El valor de b es calculado aprovechando las condiciones de Karush-Kunh-Tucker (KKT). La condición de KKT dice que en la solución óptima el producto entre las variables duales y las restricciones tiene que desaparecer (Smola & Schölkopf 1998). En el caso de los vectores soporte esto significa: αi (ε + ξi − yi + hw, xi i + b) = 0 αi∗ (ε + ξi∗ + yi − hw, xi i − b) = 0. (5.10). y, (C − αi ) ξi = 0 (C − αi∗ ) ξi∗ = 0. (5.11). De las Ecuaciones (5.10) y (5.11), se puede hacer algunas conclusiones útiles, antes que nada, solamente muestras (xi , yi ) con el correspondiente αi = C están fuera del tubo ε-insensible alrededor de f . El conjunto de variables duales no puede ser diferente a cero al mismo tiempo; es decir, αi , αi∗ . Si αi es diferente a cero entonces αi∗ es cero y viceversa. Finalmente si αi está en (0, C) entonces el correspondiente ξi es cero. Por lo tanto b puede ser calculado de la siguiente manera: b = y i − hw, xi i − ε para αi ∈ (0, C) b = yi − hw, xi i + ε para αi∗ ∈ (0, C). (5.12). Una nota final tiene que ser tomada respecto a la esparsitividad del Vector Soporte. De la Ecuación (5.10) se entiende que solo para |f (xi − yi )| ≥ ε los multiplicadores de Lagrange podrı́an ser diferentes de cero, o en otras palabras, para todas las muestras dentro de ε-tubo (región delimitada por las lı́neas punteadas en la Figura 5.5) los αi , αi∗ desaparecen, para |f (xi − yi )| < ε el segundo factor de (5.10) es diferente a cero, por lo tanto, αi , αi∗ tiene que ser cero de forma que las condiciones KKT sean satisfechas. De esta manera, se tiene una expansión reducida de w en relación con xi (no se necesitan todos los xi para describir a w). Los ejemplos que vienen con los coeficientes que no desaparecen son los llamados Vectores Soporte..

(52) 5.4 Máquinas de Vectores Soporte no Lineales. 41. Figura 5.5: Ajuste de una regresión correspondiente a una MVS lineal.. 5.4. Máquinas de Vectores Soporte no Lineales. Si observamos todo lo desarrollado en la sección anterior, el algoritmo para las MVS lineales solo depende de un producto punto entre los datos (ver Ecuación(5.8)). Entonces para resolver el problema no lineal la idea es hacer una transformación no lineal de los patrones de entrenamiento xi a un espacio dotado de un producto punto (ver Figura 5.6), el cual es conocido en MVS con el nombre de espacio de caracterı́sticas y en álgebra como espacio de Hilbert (Smola & Schölkopf 1998). Este espacio se obtiene utilizando la ecuación: Φ : <N → =. (5.13). De modo que (5.8) se transforma en: M aximizar − 12. P̀.  (αi , αi∗ ) αj , αj∗ (Φ (xi ) Φ (xj )). i,j=1. P̀ −ε (αi + αi∗ ) + yi (αi − αi∗ ) i=1 i=1    P̀ (αi − α∗ ) = 0 P̀. sujeto a. (5.14). i. i=1.  . αi , αi∗. ∈ [0, C]. Sin embargo, transformar explı́citamente cada punto es engorroso y complejo de.

(53) 5.4 Máquinas de Vectores Soporte no Lineales. 42. Figura 5.6: Transformación no lineal Φ(·) de los patrones de entrenamiento al espacio de caracterı́sticas. acuerdo a la dimensionalidad de la data. Afortunadamente para ciertas transformaciones y para ciertos espacios de caracterı́sticas existe una forma muy efectiva de calcular el producto punto usando las denominadas funciones Kernel (La idea de una función Kernel en el caso de regresión se puede ver en la Figura 5.7. Una función Kernel es una función K : X × X → < tal que K(xi , xj ) = Φ (xi ) .Φ (xj ), donde Φ es una transformación de X en cierto espacio de Hilbert =. Es decir, el producto punto se puede calcular usando la función Kernel, quedando implı́cita la transformación de los patrones de entrenamiento en el espacio de caracterı́sticas (Hernández et al. 2000). De este modo no se necesita conocer la función Φ o a los datos en el espacio =. Por otro lado, computacionalmente es mucho menos costoso. Sin embargo, no toda función Kernel cumple con K(xi , xj ) = Φ (xi ) .Φ (xj ) pero existe una forma de probar que una función cumple con ello, que es utilizar la condición de Mercer, que establece que se puede asegurar existe una transformación Φ y un Kernel K tales que la igualdad R K(xi , xj ) = Φ (xi ) .Φ (xj ) se cumple si para cualquier función g(x) tal que g(x)2 dx es finita, entonces, Z K(x, y)g(x)g(y)dxdy ≥ 0. (5.15). Esta función no es fácil de probar para todas las funciones, sin embargo, se ha demostrado para algunos kernels útiles en regresión. En el Tabla 5.1 se muestran estas.

Figure

Actualización...

Referencias

Actualización...