DESARROLLO DE UN MODELO COMPUTACIONAL,
PARA LA IDENTIFICACI ´
ON DE PATRONES
CANDLESTICKS UTILIZANDO T´
ECNICAS DE MINER´
IA
DE DATOS
MARIO LINARES V ´
ASQUEZ
Tesis presentada como requisito parcial para obtener el t´ıtulo de
MAGISTER EN INGENIER´IA
INGENIER´IA DE SISTEMAS Y COMPUTACI ´
ON
Director:
DIEGO FERNANDO HERN ´
ANDEZ LOSADA, PH. D.
Profesor Asociado
Codirector:
FABIO AUGUSTO GONZ ´
ALEZ OSORIO, PH. D.
Profesor Asociado
UNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE INGENIER´IA
Aprobada por la Facultad de Ingenier´ıa en cumplim-iento de los requisitos exigidos para otorgar el t´ıtu-lo de:Magister en Ingenier´ıa — Ingenier´ıa de Sistemas y Computaci´on
Diego Fernando Hern´andez Losada, Ph. D.
Director de la Tesis
Fabio Augusto Gonz´alez Osorio, Ph. D.
Codirector
Germ´an Hern´andez P´erez
Jurado
Germ´an Guerrero Chaparro
Jurado
DEDICATORIA
A mis maestros Diego Hern´andez y Fabio Gonz´alez por su confianza y continua gu´ıa. A todos aquellos profesores de la Universidad Nacional que contribuyeron mi proceso de formaci´on, como Sandra Liliana Rojas y Jairo Hern´an Aponte. A los liminarios por su paciencia. A ti Sara, por ser
Contenido
Contenido iv
Lista de Tablas vi
Lista de Figuras vii
1 Introducci´on 1
1.1 Objetivos y Aportes . . . 3 1.2 Organizaci´on del documento . . . 3
I
Marco Te´
orico
5
2 Fundamentos Teor´ıa de la Inversi´on 9
2.1 Teor´ıa del Consumidor . . . 9
3 An´alisis T´ecnico 13
3.1 Candlesticks . . . 14
II Modelo Propuesto para Soporte al Proceso de Selecci´
on de Portafolio
19
4 Modelo Propuesto 23
4.1 Modelo Identificaci´on Formas B´asicas . . . 23 4.2 Modelo para Generaci´on de Expectativas . . . 28 4.3 Selecci´on de Activos para Dise˜no de Portafolio . . . 33
III Experimentaci´
on y An´
alisis de Resultados
35
5 Experimentaci´on 39
5.1 Conjunto de Datos . . . 39 5.2 Dise˜no Experimental . . . 39 5.3 An´alisis de Resultados . . . 45
6 Conclusiones y Trabajo Futuro 49
Ap´
endices
53
Ap´endice A: Art´ıculo Estado del Arte 55
Ap´endice B: Glosario de T´erminos Financieros 69
Ap´endice C: Resumen de Probabilidad y Estad´ıstica 77
Experimento aleatorio . . . 77
Variable aleatoria . . . 77
Media . . . 78
Valor Esperado . . . 78
Varianza . . . 78
Desviaci´on Est´andar . . . 78
Covarianza . . . 79
Correlaci´on . . . 79
Ap´endice D: Desarrollo de la Herramienta Computacional 81 Visi´on . . . 81
Plan de Iteraciones . . . 83
Modelo de uso . . . 84
Manual de usuario PDM-Data Manager . . . 89
Manual de usuario PDM- Candles . . . 95
Manual de usuario PDM- Prefixtree . . . 95
Manual de usuario PDM-Patterns . . . 100
Lista de Tablas
4.1 Candlesticks . . . 27
4.2 Candlesticks y tama˜nos . . . 27
4.3 Ejemplos esquemas de representaci´on . . . 29
4.4 Estados de la naturaleza . . . 30
5.1 Conjunto de datos . . . 40
5.2 Experimentos cat´alogo de patrones y expectativas . . . 42
5.3 Experimentos Expectativas y Selecci´on de Activos . . . 43
5.4 Resultados Fase 1 - Experimentos Grupo 1 . . . 45
5.5 Resumen Fase 2- Experimentos Grupo 1 y Grupo 2 . . . 46
5.6 Resultados Experimentos Expectativas y Selecci´on de Activos . . . 48
Lista de Figuras
2.1 Conjunto disponible y restricci´on presupuestal . . . 10
3.1 Google Precio de cierre - Gr´afica de l´ınea . . . 15
3.2 Google - Gr´afica de barras . . . 15
3.3 Google - Candlestick . . . 16
3.4 Barras vs Candlestick . . . 16
3.5 Basic Candlesticks . . . 17
3.6 Patrones de ruptura . . . 18
3.7 Patrones de continuaci´on . . . 18
4.1 Sistema clasificador difuso . . . 24
4.2 Conjuntos difusos . . . 25 4.3 Posici´on relativa . . . 28 4.4 Secuencia y estado . . . 30 4.5 Arbol de prefijos . . . 31 5.1 Patrones tama˜no 2 . . . 41 5.2 Patrones tama˜no 3 . . . 42
5.3 Espacio TPR vs FPR (tomada de http://en.wikipedia.org/wiki/Receiver operating characteristic) 44 5.4 Espacio ROC selecci´on de activos . . . 47
5.5 Tasa de Error clasificaci´on . . . 47
1 Variable Aleatoria . . . 77
2 Covarianza . . . 80
3 Correlaci´on . . . 80
4 Modelo de datos - PDM Data Manager . . . 82
5 Formas b´asicas . . . 83
6 Arquitectura general . . . 84
7 Diagrama casos de uso PDM-Data Manager . . . 85
8 Casos de uso PDM-Candles . . . 86
9 Casos de uso PDM-Prefixtree . . . 87
10 Casos de uso PDM-Patterns . . . 88
11 Ventana principal -PDM Data Manager . . . 90
12 Manage Markets . . . 91
13 Manage Companies . . . 92
14 Manage Stocks . . . 93
15 Manage Quotes . . . 94
16 Ventanas para creaci´on . . . 94
17 Ventana para carga de precios mediante archivo . . . 96
19 Gr´afica Candlesticks 2 . . . 97
20 PDM Candles - Ventana Principal . . . 97
21 PDM Candles - Resultados . . . 98
22 PDM Candles - Archivo CSV generado . . . 98
23 PDM Prefixtree - Ventana Principal . . . 99
24 PDM Prefixtree - Ventana construcci´on cat´alogo . . . 100
25 PDM Prefixtree - Panel ´arbol de prefijos . . . 101
26 PDM Prefixtree - Panel ´arbol de patrones . . . 101
27 PDM Prefixtree - Reglas . . . 102
28 PDM Patterns - Ventana Principal . . . 102
29 PDM Patterns - Panel par´ametros de codificaci´on . . . 103
30 PDM Patterns - Panel par´ametros de an´alisis . . . 103
31 PDM Patterns - Panel selecci´on de acciones . . . 103
32 PDM Patterns - Reporte . . . 104
33 PDM Patterns - Visor ´arboles de patrones . . . 104
34 PDM Patterns - Visor secuencia de candlesticks . . . 105
35 PDM Patterns - Simulador portafolios . . . 105
Cap´ıtulo 1
Introducci´
on
El problema de selecci´on de portafolio es reconocido en la comunidad acad´emica y empresarial como uno de los grandes desaf´ıos de las finanzas, la estad´ıstica y las ciencias de la computaci´on, debido a sus caracter´ısticas especiales, como son la complejidad e incertidumbre impl´ıcita en los procesos, y la fundamentaci´on de tipo econ´omico que lo orienta (generaci´on de riqueza). De forma general consiste en la selecci´on de un conjunto de activos de un universo disponible, de acuerdo con un conjunto de variables objetivo del tomador de decisiones, que definen el modelo de inversi´on. Tal como se plantea en [54], el proceso de selecci´on se compone de dos etapas:
• Generaci´on de expectativas: con base en los valores hist´oricos de las series financieras, la informaci´on del mercado, y el conocimiento del tomador de decisiones, se construyen expectati-vas acerca del comportamiento futuro de los activos y la din´amica del mercado que define ese comportamiento.
• Dise˜no del portafolio: con base en las expectativas obtenidas y el perfil del tomador de decisiones (tolerancia del riesgo, horizonte de planeaci´on, posici´on, etc) se selecciona el conjunto de activos y t´ıtulos (acciones, bonos, monedas, etc) en los cuales se debe invertir, as´ı como la proporci´on de inversi´on de riqueza en cada uno de estos; esta selecci´on est´a dirigida por la necesidad de optimizar las variables objetivo del proceso, que se asocian con el perfil del tomador de decisiones. Por ejemplo, dos criterios cl´asicos de selecci´on son maximizar el retorno esperado y minimizar el riesgo del portafolio. Trabajos como los de Markowitz y Sharpe en [54] y [69] respectivamente, han definido los fundamentos financieros y matem´aticos del dise˜no de portafolio en un bloque te´orico conocido como laTeor´ıa Moderna de Portafolio.
De forma general, las expectativas que dirigen el proceso de dise˜no del portafolio, son reglas, patrones o relaciones, que definen el comportamiento esperado de los activos con base en el mercado y todos los activos disponibles1. Este comportamiento es representado a trav´es de series de tiempo que presentan el hist´orico de alg´un valor caracter´ıstico del activo. Estos valores caracter´ısticos describen el activo desde el punto de vista de su comportamiento en un mercado financiero a trav´es del tiempo. Los enfoques para generar estas expectativas, se pueden agrupar en tres grupos:predicci´on de series de tiempo (Forecasting), generaci´on de reglas de asociaci´on, identificaci´on de patrones y tendencias, tal como se plantea en [53]. En la actualidad, todo el desarrollo resumido por estos 3 enfoques, junto con el crecimiento de los modelos financieros asociados con el proceso, est´an convergiendo hacia la con-strucci´on de modelos h´ıbridos que combinan estos enfoques de generaci´on de expectativas, con nuevas metodolog´ıas como la computaci´on flexible y la Miner´ıa de Datos. Cabe mencionar aqu´ı trabajos como los de Wilson [78] y Das et al [21]. En el caso de [78], se presenta un sistema h´ıbrido para la predicci´on de precios de acciones que se basa en diferentes modelos t´ecnicos, estad´ısticos y adaptativos. El n´ucleo
1Al conjunto de activos o t´ıtulos disponibles en el mercado para efectos de dise˜no de un portafolio, se le denomina universo de selecci´on
del sistema es una red auto-organizativa que eval´ua mediante cada una de las entradas de la red, cual de los modelos utilizados se desempe˜na mejor para cada una de las acciones del universo de selecci´on. Luego, la capa de salida de la red con base en la recomendaci´on de los modelos seleccionados, con-struye el portafolio teniendo en cuenta el valor del riesgo definido por el tomador de decisiones. En [21], se generan reglas a partir del an´alisis de series financieras. Estas reglas expresan expectativas a nivel de comportamiento temporal en una misma serie (autocorrelaci´on) y correlaci´on entre diferentes series. El proceso de construcci´on de las reglas se basa en el uso de t´ecnicas de agrupaci´on (K-means espec´ıficamente) como herramienta para identificar patrones en las series, utilizando como medida de similitud L2 (distancia euclidiana). Esta t´ecnica requiere como par´ametros el valor de la ventana temporal para discretizaci´on de las series y el n´umero de patrones a encontrar (utilizando K-means) sobre los conjuntos discretizados. Las reglas de asociaci´on encontradas, expresan la relaci´on entre la presencia de patrones frecuentes en series de precios de cierre, que son identificados con la t´ecnica de agrupaci´on.
En materia de modelos cl´asicos para abordar el problema de selecci´on de portafolio, las aproxima-ciones desde la teor´ıa financiera y las ciencias de la computaci´on asumen que las series de tiempo se de comportan bajo distribuciones normales, descritas por una medida de tendencia y una de variaci´on. Pero el reciente crecimiento de ´areas de investigaci´on como la Miner´ıa de Datos, y la orientaci´on de sus t´ecnicas como la extracci´on de conocimiento y el manejo de grandes vol´umenes de informaci´on (tanto cuantitativa como cualitativa), presentan al problema del portafolio nuevas opciones de imple-mentaci´on y de soluci´on, sin los supuestos de normalidad. Trabajos como los presentados en [78] y [21], plantean nuevos horizontes en materia de sistemas h´ıbridos para la soluci´on del problema. Por ejemplo, la identificaci´on de patrones en series financieras con t´ecnicas de agrupaci´on, requiere el uso de esquemas autom´aticos que no necesiten la definici´on de par´ametros del conjunto posible (por ejem-plo el n´umero de clusters), de tal forma que los resultados sean m´as vers´atiles e identifiquen de forma menos restringida el conocimiento impl´ıcito en los datos de las series. Por otro lado, caracter´ısticas de los patrones comoescalamiento en tiempo y amplitud, translaci´on vertical y ruido,revelan la necesi-dad del uso de medidas de similitud robustas y aplicables al proceso. Por ejemplo, Dynamic Time Warping es una medida de similiaridad presentada en [46] y [47] , cuya motivaci´on es tratar con series que tienen caracter´ısticas especiales como las mencionadas anteriormente.
El proceso de an´alisis de tendencias e identificaci´on de patrones en series financieras es de vital importancia para campos de estudio como el Dise˜no Activo de Portafolios, el An´alisis de Series y Modelos cualitativos. Con el crecimiento constante del n´umero transacciones registradas en la bolsa y la adici´on de nuevas compa˜n´ıas a los mercados de intercambio, la identificaci´on de patrones en series es cada vez m´as compleja dada la cantidad de informaci´on disponible. Este proceso de reconocimiento est´a limitado por supuestos patrones ya definidos por el an´alisis t´ecnico [60], y dada la din´amica del mercado es necesario tambi´en analizar nuevos patrones emergentes que a´un no han sido identificados (partiendo del supuesto que estos patrones existen). Aqu´ı el factor motivante y generador de investi-gaci´on, es que los modelos de cl´asicos de dise˜no de portafolio no est´an elaboradoras para operar con informaci´on cualitativa y reglas de predicci´on, sino con distribuciones de probabilidad de los retornos esperados de las acciones. En esta medida se requiere de una herramienta computacional que soporte al proceso de dise˜no de portafolio abordando el problema de la generaci´on de expectativas como un proceso de reconocimiento de patrones, que aproveche las bondades propuestas por el an´alisis t´ecnico. Esta herramienta debe cubrir las necesidades de manipulaci´on de grandes vol´umenes de informaci´on y descubrimiento autom´atico de conocimiento en las series financieras (a manera de reglas).
Bajo esta ´optica, el prop´osito de esta t´esis para obtar al t´ıtulo de Maestr´ıa en Ingenier´ıa - Ingenier´ıa de Sistemas y Computaci´on, es el desarrollo de una herramienta de software basada en miner´ıa de datos, para soporte al proceso de Selecci´on de Portafolio. Esta herramienta plantea una implementaci´on computacional de una t´ecnica para reconocimiento de patrones en series financieras, conocida como candlesticks. Estos candlesticks se definen a trav´es de reglas lingu´ısticas para el reconocimieno visual de patrones y proporcionan expectativas del comportamiento futuro de las acciones. En el caso particular de esta tesis se utiliza razonamiento difuso para la identificaci´on de los candlesticks. Estos candlesticks reconocidos sobre el conjunto de datos, se organizan como patrones mediante un ´arbol de prefijos
sobre el cual se generan expectativas(reglas) que son usadas entonces para sugerir al tomador de inversiones la composici´on de su portafolio para el d´ıa de an´alisis seleccionado. La definici´on del modelo computacional representa un aporte valioso al campo financiero y al campo computacional, en la medida que un modelo computacional permitir´a realizar de forma autom´atica un proceso manual que en el contexto financiero requiere esfuerzo y tiene un nivel de complejidad asociado, como lo es el reconocimiento de patrones en grandes volumenes de datos.
1.1
Objetivos y Aportes
Con base en el objetivo general de implementar una herramienta de software basada en miner´ıa de datos, para soporte al proceso de Selecci´on de portafolio, se presentan a continuaci´on los objetivos espec´ıficos definidos y se describen los aportes de la tesis para cada uno:
• Objetivo 1: Elaborar un estado del arte desde el punto de vista de los modelos computaciones aplicados al proceso de selecci´on de portafolio. Como resultado de este objetivo se public´o en la Revista Ingenier´ıa e Investigaci´on [53] (Ver Ap´endice A) un art´ıculo estado del arte de modelos computaciones utilizados en el proceso de Selecci´on de Art´ıculo. El aporte de este art´ıculo radica en la taxonomia de t´ecnicas presentada y en la descripci´on del proceso de selecci´on como un problema de selecci´on multiobjetivo, el cual es presentado com´unmente en un enfoque netamente financiero. Este estado del arte permiti´o identificar como la t´ecnica de candlesticks no habia sido utilizado antes para la generaci´on de expectativas.
• Objetivo 2:Dise˜nar un modelo de generaci´on de expectativas basado en razonamiento difuso y ´
arboles de prefijos.El modelo de generaci´on de expectativas propuesto incluye un sistema clasi-ficador difuso, que permite usar computacionalmente las reglas linguisticas usadas en el proceso humano de reconocimiento de candlesticks. Este modelo aborda el problema desde una perspecti-va de reconocimiento de patrones y no como un problema de predicci´on cl´asico (aproximaci´on de funciones). Adicionalmente el uso del ´arbol de prefijos permite organizar las secuencias de can-dlesticks encontradas en los datos reales, de tal forma que se construye un cat´alogo de patrones que permite evaluar la frecuencia y capacidad de dar informaci´on de cada patr´on.
• Objetivo 3:Desarrollar un modelo de dise˜no de portafolio, basado en el modelo de generaci´on de expectativas.Uno de los elementos claves del proceso de dise˜no de portafolio radica en la selecci´on de los activos que formar´an parte del portafolio con base en las expectativas generadas. El aporte del modelo de dise˜no propuesto, radica en que permite seleccionar del universo disponible aquellos activos, que para un d´ıa de an´alisis definido proporcionan una perspectiva de mercado creciente con base en el an´alisis de los candlesticks proporcionados por el an´alisis t´ecnico.
• Objetivo 4: Implementar un prototipo de software basado en los modelos de generaci´on de expectativas y dise˜no de portafolio construidos en el proyecto.Este prototipo permite validar los modelos propuestos y proporciona a los tomadores de deciciones una herramienta para soporte al proceso, que va desde la gesti´on de datos hasta la selecci´on de activos para dise˜no de portafolios.
• Objetivo 5: Evaluar el desempe˜no del prototipo de software desarrollado, con series de tiempo de acciones reales.Con el uso de series de acciones reales se puede validar como el prototipo con-tribuye al proceso de selecci´on, generando portafolios de inversi´on y visualizando los resultados de estos.
1.2
Organizaci´
on del documento
Este documento presenta el desarrollo del proceso de investigaci´on y desarrollo en cuatro partes que son: marco te´orico, modelo propuesto, proceso de desarrollo de la herramienta computacional, y an´alisis
de resultados obtenidos y conclusiones. En la primera parte se presenta la teor´ıa financiera asociada con el proceso de Selecci´on de Portafolio, con los siguientes cap´ıtulos:
• Cap´ıtulo 2: presenta fundamentos de la teor´ıa de la inversi´on como la teor´ıa del consumidor en la cual se basan los modelos de portafolio..
• Cap´ıtulo 3: presenta el an´alisis t´ecnico y la t´ecnica de candlesticks como herramienta para identificaci´on de patrones en series de acciones. El modelo propuesto usa los candlesticks del an´alisis t´ecnico para abordar el proceso de selecci´on de activos en el dise˜no de portafolios.
La segunda parte est´a dedicada al modelo propuesto. Incluye el Cap´ıtulo 4 en el cual se define el modelo para identificaci´on de formas b´asicas de candlesticks con un sistema clasificador difuso y el modelo para generaci´on de expectativas usando ´arboles de prefijos.
En la tercera se presentan los resultados del proceso con los siguientes cap´ıtlos:
• Cap´ıtulo 5:describe el proceso de experimentaci´on usando datos reales del mercado burs´atil. Este cap´ıtulo incluye la descripci´on del conjunto de datos, el dise˜no experimental y el an´alisis de los resultados obtenidos.
• Cap´ıtulo 6:plantea los conclusiones del proceso y el trabajo futuro.
Adicionalmente, el documento tiene una secci´on de Ap´endices para contextualizar al lector no familiarizado con la terminolog´ıa y conceptos financieros, y mostrar el proceso de desarrollo de los prototipos que soportaron la experimentaci´on:
• Ap´endice A: estado de arte sobre t´ecnicas computaciones utilizadas en la generaci´on de ex-pectativas.
• Ap´endice B:glosario de t´erminos financieros.
• Ap´endice C:repaso de la estad´ıstica usada en el proceso de Selecci´on de Portafolio
• Ap´endice D:proceso de desarrollo de los prototipos construidos como producto de la tesis.
Mario Linares V´asquez Departamento de Ingenier´ıa de Sistemas Universidad Nacional de Colombia
Parte I
En la filosof´ıa la mente est´a aferrada a las cosas, mas en la poes´ıa se halla libre de tales cadenas y puede divagar y fingir lo que le plazca. Francis Bacon. Teor´ıa del Cielo
Cap´ıtulo 2
Fundamentos Teor´ıa de la Inversi´
on
2.1
Teor´ıa del Consumidor
Cada uno de los agentes que forman parte de un sistema econ´omico se encuentran intimamente ligados con los procesos de producci´on y m´as espec´ıficamente con el consumo de los productos generados por estos procesos al interior del sistema. Bienes y servicios, dinero, etc, son la materializaci´on de estos productos y las personas u organizaciones son la representaci´on de los agentes que quieren de una otra forma poseer esos productos de acuerdo con criterios como la necesidad, el lujo, o de forma general la adquisici´on de bienestar.
Este proceso de adquisici´on de productos con base en la maximizaci´on de la satisfacci´on o la utilidad, est´a fundamentado en la toma de decisiones racionales (con o sin incertidumbre), y se conoce como elProblema del Consumidor.
El problema del consumidor se modela como un problema de optimizaci´on que se define a trav´es de 4 elementos, que son los siguientes:el conjunto de oportunidades disponible, las restricciones pre-supuestales, las preferencias individuales de consumo y el comportamiento de consumo representados en las elecciones hechas con el fin de maximizar la satisfacci´on.
Para ilustrar el problema del consumidor, a continuaci´on se presentar´an cada uno de los elementos, antes de enunciar el modelo formal.
2.1.1
Conjunto de Oportunidades
El proceso de adquisici´on de bienes est´a dirigido en primera instancia por el universo de selecci´on disponible en el mercado. Las oportunidades de elegir una canasta o conjunto de bienes son directa-mente observables por cualquier consumidor, y cualquier variaci´on en las oportunidades deber´a influir directamente sobre la elecci´on. Es decir, los cambios en la elecci´on son debidos en gran parte a la variaci´on en el universo de selecci´on. En esta medida se define el conjunto de oportunidades, como el conjuntonde productos disponibles en el mercado.
2.1.2
Restricciones Presupuestales
De forma general cuando el consumidor se dispone a comprar alg´un bien, no solo encuentra el bien buscado sino otros (conjunto disponible) que le hacen reflexionar sobre la canasta a comprar. Esta situaci´on evidencia como las condiciones para la toma de decisiones han cambiado y por ende el conjunto de oportunidades.
Aqu´ı es donde en la toma de la decisi´on respecto a la compra interviene un segundo elemento, y es la cantidad de dinero que posee el consumidor al momento de la compra. Esta condici´on se define como la restricci´on presupuestal. Si el consumidor posee un valor de riqueza que se denominay, y cada uno de losnproductos del conjunto disponible tienen un preciopi∀i, i= 1, .., n, se define entonces la
n
X
i=1
pixi≤y (2.1)
donde xi representa el porcentaje de la riqueza y que el consumidor utilizar´a en la compra del
productoi, o la cantidad del bienia comprar. La relaci´on (2.1) expresa la restricci´on presupuestal en el problema de consumidor bajo el hecho que el costo de los bienes a consumir o adquirir est´a limitado por la cantidad de riqueza que dispone el tomador de decisiones para efecto del consumo.
Figura 2.1: Conjunto disponible y restricci´on presupuestal
La Figura 2.1 ilustra el efecto de la restricci´on presupuestal sobre un conjunto disponible de 2 productos (A y B). As´ı una canasta se puede expresar como una combinaci´on de cantidades de productoAyB. Pero la restricci´on presupuestal reduce las opciones a un conjunto v´alido a trav´es del cual el consumidor debe seleccionar las m´as atractivas bajo un criterio de satisfacci´on o utilidad. Por ejemplo los puntoso,pyqson combinaciones v´alidas pero el consumidor en particular define cual es m´as atractiva.
El modelo b´asico de consumo involucra solo una restricci´on que est´a definida por la riqueza disponible, pero otros elementos pueden ser involucrados como el tiempo disponible, el m´aximo nivel de ocio soportado, extendiendo as´ı el problema b´asico a un problema multiobjetivo.
2.1.3
Preferencias individuales
Un elemento fundamental desde el punto de vista de la teor´ıa del consumidor es la comprensi´on y modelado de c´omo los individuos realizan sus decisiones y c´omo seleccionan alternativas de un conjunto disponible de las mismas. Desde el punto de vista miroecon´omico, cada individuo ordena o prioriza las alternativas de selecci´on de acuerdo con su preferencia relativa. Seg´un esto, cuando el individuo realiza una elecci´on, selecciona la alternativa que mejor satisfaga sus necesidades en un momento dado.
Este proceso de selecci´on sobremalternativas, que se traduce en un orden de preferencias expresado por el consumidor, define una relaci´on de orden entre las alternativas disponibles. Por ejemplo, cuando algunas alternativas tienen el mismo nivel en la lista de preferencias, el consumidor tendr´a indiferencia entre las mismas.
Existen dos propiedades asociadas con la relaci´on de orden:
(i) Una relaci´on de orden permite comparar 2 alternativas diciendo cual es dominante o preferida, o definir cuando ambas tienen el mismo nivel de preferencia.
(ii) La relaci´on de orden es transitiva, es decir si una alternativa A es mayor que una alternativa B, y esta ´ultima mayor que una C, entonces A es mayor q C.
Las relaciones de preferencias se usan para caracterizar los deseos de los consumidores, por varias combinaciones de bienes. Los bienes son indexados de 1 hasta n. Una canasta de bienes se define entonces como la colecci´on de varias cantidades de esosn bienes, y la cantidad de cada bien en una canasta es un n´umero real positivo. As´ı cada consumidor tiene sus relaciones de preferencia propias.
El instrumento formal para identificar las relaciones de preferencia se conoce como Funci´on de utilidad y se define bajo la siguiente condici´on:Si la relaci´on de orden es completa, transitiva, reflex-iva y continua, entonces las preferencias se pueden representar a trav´es de una funci´on de utilidad continua.
La funci´on de utilidadU, es una funci´on real, definida de la siguente forma:
U :<n→ <
(x1, x2, .., xn)7→f(x1, x2, .., xn)
donde el conjunto dexrepresenta el conjunto cantidades de compra de los bienes o canasta de bienes (con la condici´on que el orden de las preferencias sobre estas se preserva por la magnitud deU(x)) y f mide la satisfacci´on o bienestar producido por la canasta. As´ı, una funci´on de utilidad tiene la propiedad de que dados dos elementos x(1) y x(2) en X se cumple que U(x(1)) ≥ U(x(2)) s´ı y solo s´ıx(1) es m´as atractiva quex(2).
2.1.4
El problema del consumidor
Cualquier consumidor se ha visto en la situaci´on de que sus deseos de elegirnbienes se ven frustrados cuando decide ir de compras a un centro comercial. Esta situaci´on de frustaci´on confirma claramente como las preferencias individuales son afectadas por restricciones como la cantidad de dinero que se tiene para comprar los bienes. Esta situaci´on representa elProblema del Consumidor.
Una canasta se define como la representaci´on de un vector n-dimensional x(k) de n´umeros no negativos, donde com´unmente se asume que los bienes son divisibles Un consumidor selecciona una canasta que contiene un conjunto de bienes descritos por el vector x(k) = (x1, x2, .., xn) donde xi
∀i= 1, .., nrepresenta la cantidad del bien i-´esimo en la canastak. Las preferencias del consumidor, sobre varias posibles canastas, se representa por la relaci´on de preferencias definida por la funci´on de utilidadU(x).
Asociado a cada bieniexiste un precio, medido en alguna unidad monetariapi>0, de tal forma
que el costo de elegirxiser´apixi. En esta medida el costo total de elegir la canastax(k)ser´aP n i=1pixi.
Asumiendo, que el consumidor tiene un presupuesto o nivel de riqueza dey unidades monetarias, el problema del consumidor en su versi´on b´asica se define como un problema de optimizaci´on de la siguiente forma: maxU(x) sujeto a n X i=1 pixi≤y (2.2)
y en su forma general delrestricciones ykfunciones de utilidad, es decir el problema del consumidor en su versi´on multiobjetivo se expresa
max ¯U(x) = [U1(x), U2(x), ..., Uk(x)]T
2.1.5
Portafolios de Inversi´
on
El proceso de dise˜no de portafolio es una instancia particular del problema del consumidor en el mercado bursatil. Consiste en seleccionar bajo alg´un criterio particular, el conjunto de activos del universo de selecci´on en los cuales se va a invertir. Adicionalmente incluye la selecci´on de los porcentajes de inversi´on en cada uno de los activos. Este proceso se describe como un problema de optimizaci´on multiobjetivo en el cual, el tomador de decisiones selecciona en un conjunto de soluciones dominantes, la opci´on que vaya mejor con su perfil.
Este proceso de selecci´on de los activos incluye una fase de generaci´on de expectativas (preferencias individuales) respecto al comportamiento futuro de los activos, con la cual se define la estrategia de inversi´on a seguir. Estas expectativas, de forma general se construyen desde dos puntos de vista o esquemas de an´alisis de la informaci´on disponible, que se conocen como An´alisis Fundamental y An´alisis T´ecnico. En el primero, el objetivo es establecer el precio de los activos con base en toda la informaci´on disponible en el mercado, como lo son hist´oricos, noticias, indicadores macroecon´omicos, etc. En el segundo, el objetivo es encontrar tendencias de comportamiento con base en los precios hist´oricos de los t´ıtulos. En la siguiente secci´on se presentar´a mas en detalle el An´alisis T´ecnico.
Cap´ıtulo 3
An´
alisis T´
ecnico
El comportamiento del mercado burs´atil se presenta como informaci´on disponible en diferentes formas. Generalmente se habla de indicadores, ´ındices, precios, estados financieros, etc, pero la forma esencial de informaci´on disponible, son las series de tiempo que registran los valores caracter´ısticos de los t´ıtulos o activos del universo disponible. En el caso particular del mercado burs´atil el universo disponible se compone de acciones. Estos valores caracter´ısticos representan el comportamiento diario de las especies1 como resultado de la din´amica temporal del mercado:
• Precio de Apertura (YA(t)): es el valor que tiene la especie en el momento de apertura de una
sesi´on del mercado de intercambio al cual est´a asociado el activo.
• Precio de Cierre (YC(t)): es el valor que tiene la especie al momento de cierre de una sesi´on del
mercado de intercambio al cual est´a asociado el activo. El precio de cierre es el valor que se toma como referencia cuando se analiza un t´ıtulo para efectos de dise˜no de portafolio.
• Promedio (YP(t)): es el valor promedio de todos los precios obtenidos por una especie durante
una sesi´on del mercado.
• M´aximo (Ymax(t)) y M´ınimo (Ymin(t)): son los valores m´aximo y m´ınimo que obtuvo una especie
durante una sesi´on del mercado.
• Volumen (V(t)): se mide como el producto de la cantidad por el precio de transacci´on de cada unidad.
• Cantidad (Q(t)): es la cantidad de acciones(unidades) de una especie particular transadas du-rante una sesi´on de mercado.
Una serie de tiempo se define como una secuencia S de valores si indexados y ordenados por el
tiempo. En el caso de las series de acciones cadasies un valor representativo de su comportamiento en
el mercado, que suele llamarse precio. Estos precios son valores reales que marcan el comportamiento de una acci´on en un d´ıa; estos precios se definen por la din´amica del mercado y son precio de cierre, precio de apertura, precio m´ınimo y precio m´aximo. Adicionalmente a los precios se utiliza tambi´en el volumen que se define como el n´umero de acciones transadas en el mercado durante el d´ıa. De una especie de acci´on (por ejemplo la acci´on de GOOGLE en NYSE) en particular se pueden tener m´ınimo 5 series de tiempo que describen el comportamiento de la acci´on2. De estas, la serie del precio de cierre
es la m´as utilizada bajo el supuesto que este valor revela todo el ejercicio diario de los agentes del
1El t´ermino especie se utiliza para referirse a la acci´on que una empresa en particular registra en el mercado de bolsa
para efectos de negociaci´on y transacci´on. El termino acci´on se utilizara para referirse a las unidades de una especie en particular que son negociadas.
2Se menciona aqu´ı que m´ınimo 5 series, porque en el an´alisis tambi´en se utilizan los indicadores t´ecnicos o los
mercado. Las series de tiempo financieras son especialmente reconocidas por la motivaci´on econ´omica que sugieren (adquisici´on de riqueza) y por un conjunto de caracter´ısticas propias. De acuerdo con la informaci´on que se utiliza en el proceso de an´alisis de las series financieras, el tomador de decisiones puede abordar el problema desde la ´optica del An´alisis Fundamental, el An´alisis T´ecnico o una mezcla de ambas.
El An´alisis Fundamental utiliza toda la informaci´on disponible y existente como por ejemplo, indicadores macroecon´omicos, estados financieros de las compa˜n´ıas, noticias y fundamentales. En esta medida el objetivo es con base en toda esa informaci´on calcular el valor que debe tener una acci´on. El An´alisis T´ecnico solo utiliza como informaci´on disponible los precios hist´oricos de las acciones. El ejercicio de este tipo de an´alisis consiste en pronosticar el precio de las acciones con base en gr´aficas e indicadores t´ecnicos. Tres supuestos estructuran el esquema te´orico a partir del cual se construye el an´alisis t´ecnico:
• El precio revela toda la informaci´on del mercado. • Los precios se mueven en tendencias.
• La historia del mercado se repite.
Como el precio refleja toda la informaci´on que lo puede afectar (noticias, fundamentales, indi-cadores macroeconomicos, demanda, oferta, etc), para efectos de predecir el comportamiento del mer-cado solo se requiere entonces el estudio de los precios hist´oricos de las acciones. Como estos precios se mueven en tendencias, el uso de gr´aficas proporciona un mecanismo a trav´es del cual el tomador de decisiones identifica tendencias de los precios para ejecutar las estrategias de compra/venta en el sentido de esas tendencias. Adicionalmente, la psicolog´ıa del mercado se revela en el comportamiento hist´orico que puede ser representado a trav´es de patrones gr´aficos. El acervo de conocimiento del an´alisis t´ecnico presenta un conjunto de patrones que han sido identificados y categorizados en el pasado. Estos patrones son propios del tipo de gr´afica que utiliza el tomador de decisiones. En el an´alisis t´ecnico se utilizan cuatro tipos de gr´aficas que son: gr´afica de l´ıneas, gr´afica de barras, gr´afica de puntos y figuras, y candlesticks.
3.1
Candlesticks
Las gr´aficas y los indicadores t´ecnicos son las herramientas fundamentales que los seguidores del An´alisis T´ecnico usan con el objetivo de predecir el comportamiento futuro del mercado. Las gr´aficas proporcionan una representaci´on visual de los precios caracter´ısticos de las acciones (apertura, cierre, m´aximo, m´ınimo), mientras que los indicadores t´ecnicos son medidas del comportamiento del mercado. Las gr´aficas de l´ınea presentan solo un precio caracter´ıstico, que generalmente es el precio de cierre. Si el analista desea visualizar otro valor, debe entonces pintar otra serie de tiempo en el gr´afica. Estas son utilizadas tambien para visualizar el comportamiento de indicadores t´ecnicos a lo largo del tiempo (Figura 3.1).
Las gr´aficas de barras presentan en un sola figura los precios de cierre, m´aximo y m´ınimo; si el precio de apertura es disponible suele pintarse tambi´en. Se llama de barras, porque una l´ınea vertical es utilizada para representar el rango de precios entre el m´aximo y el m´ınimo. Los precios de cierre y apertura se pintan como una peque˜na marca horizontal sobre la barra vertical, que van hacia hacia la derecha y la izquierda respectivamente (Figuras 3.2 y 3.4).
Los Candlesticks (Figura 3.3 ) son la versi´on Japonesa de las gr´aficas de barras. La diferencia entre ambos tipos de gr´aficas, radica en que los candlesticks visualmente proporcionan m´as informaci´on, en la medida que es m´as clara la diferencia y la direcci´on del cambio entre los precios de cierre y apertura. El cuerpo de los candlesticks es un rectangulo que representa el rango definido por los precios de cierre y apertura. En el caso que el precio de apertura es mayor, el cuerpo es de color negro, en caso contrario el cuerpo es blanco (Figura 3.4). Adicionalmente los precios m´aximo y m´ınimo son representados como barras verticales que salen del cuerpo.
Figura 3.1: Google Precio de cierre - Gr´afica de l´ınea
Figura 3.2: Google - Gr´afica de barras
Si el precio revela todo y el mercado se mueve en ciclos el oficio de los analistas t´ecnicos es re-conocer las relaciones existentes entre los precios, el tiempo y los datos historicos. En esta medida los candlesticks son la herramienta preferida a la hora de reconocer patrones porque permiten identificar el comportamiento de los mercados y la psicolog´ıa de los tomadores de decisiones mediante configura-ciones espec´ıficas de los precios de las acconfigura-ciones. Estas configuraconfigura-ciones son denominadas formas b´asicas y se reconocen como figuras con cuerpo y colas particulares(Figura 3.5):
• Marubozu (1). • Long days (2).
Figura 3.3: Google - Candlestick
Figura 3.4: Barras vs Candlestick
• Long lower shadow (3). • Shaven Head (4). • Hanging Man (5). • Hammer (6). • Spinning Top (7). • Inverted Hammer (8). • Shooting Star (9). • Shaven Bottom (10). • Long upper shadow (11).
• Dojis (12): neutral, long legged, Dragonfly doji, Gravestone doji. 16
Figura 3.5: Basic Candlesticks
Una colecci´on secuencial de formas b´asicas se define como un patr´on candlestick que representa el comportamiento de los agentes del mercado y la mentalidad de los tomadores de decisiones. Un patr´on se describe por la secuencia de formas b´asicas asociadas, la posici´on relativa de estas en la secuencia, y el estado de la naturaleza asociado. Estos estados de la naturaleza describen el comportamiento asociado al patr´on, es decir su naturaleza de ruptura o continuaci´on de la tendencia posterior a la secuencia. Estos patrones son reconocidos de forma visual con base en reglas que generalmente se expresan en lenguaje natural, y forman parte del acervo de conocimiento del an´alisis t´ecnico y sus seguidores. Las reglas se usan tanto en el proceso de identificaci´on de las formas individuales como patrones espec´ıficos. En el caso de identificaci´on de formas b´asicas, se definen utilizando relaciones de magnitud de las partes de la forma: cuerpo, cola(sombra) superior y cola (sombra) inferior. Un ejemplo de estas reglas es : si la cola superior es muy peque˜na o peque˜na, el cuerpo es peque˜no, y la cola inferior es larga, la figura b´asica es entonces un hammer(ver Figura 3.5). En el caso de los patrones las reglas se definen utilizando posiciones relativas entre una secuencia de forma b´asica que tiene un estado de la naturaleza asociado.
En el marco de trabajo del an´alisis t´ecnico, estos patrones han sido observados a lo largo del tiempo y algunos han sido catalogados debido a su ocurrencia frecuente y la implicaci´on de estos en el comportamiento futuro del mercado. Las figuras 3.7 y 3.6 presentan ejemplos de patrones de ruptura y patrones de continuaci´on respectivamente.
Los patrones de ruptura de tendencia, que aparecen en la Figura 3.7 son: Eveninng star (1), Morning star (2), Rising three methods (3), Inverted hammer (4), Engulfing (5), Aban-doned baby(6), Unique three river (7), Three stars in the south (8), Breakaway (9), Concealling baby swallow (10). Los patrones de continuaci´on , que aparecen en la Figura 3.6 son: Upside tasuki gap (1), Downside tasuki gap (2), Side by side white lines + (3), Side by side white lines - (4), Three line strike + (5), Three line strike - (6). Para una referencia completa del cat´alogo de patrones ver [60].
Figura 3.6: Patrones de ruptura
Figura 3.7: Patrones de continuaci´on
Parte II
Modelo Propuesto para Soporte al Proceso
The first step in forecasting the business or economic future consists, thus of gathering observations from the past. Freund John E and Frank J Williams, Modern business Satistics
Cap´ıtulo 4
Modelo Propuesto
En materia de esfuerzos computacionales para generaci´on de expectativas para dise˜no de portafolios de inversi´on, varios enfoques y t´ecnicas han sido utilizadas. La mayoria de los esfuerzos de investigaci´on se han orientado a modelos para predicci´on (forecasting), aproximaci´on de funciones y regresi´on cl´asica sobre series de tiempo con el precio de cierre o indicadores t´ecnicos. En [53] (Ver Ap´endice A) se presenta un estado del arte de t´ecnicas computacionales aplicadas a generaci´on de expectativas.
Desafortunadamente, los trabajos orientados a generaci´on de expectativas solo se han enfocado en la informaci´on presente en el precio de cierre y algunos indicadores, a pesar de que en el mundo real del an´alisis t´ecnico el ejercicio diario se basa en el an´alisis de gr´aficas de candlesticks y en la identificaci´on de patrones que llevan a la definici´on de estrategias de inversi´on.
Los patrones candlesticks se han definido bajo un cat´alogo elaborado con base en la observaci´on hist´orica de los mercados. Esta observaci´on incluye el an´alisis de grandes volumenes de informaci´on que son las series de tiempo hist´oricas de las acciones o t´ıtulos en un mercado. M´ultiples preguntas aparecen en torno a la validez estad´ıstica de estos patrones y la completitud y correctitud del cat´alogo actual. En general, aqu´ı nace el inter´es para la identificaci´on de patrones candlesticks de forma aut´omatica, usando t´ecnicas propias de la miner´ıa de datos, desde un punto de vista exploratorio y de confirmaci´on de los supuestos del an´alisis t´ecnico.
Dadas las caracter´ısticas propias del proceso de reconocimiento de patrones candlesticks, el modelo propuesto en esta tesis tiene tres fases que son las siguentes:
• Identificaci´on de formas b´asicas y codificaci´on de series de tiempo en una serie simb´olica. El objetivo de esta fase es obtener una representaci´on simb´olica de las series de tiempo de los precios de los t´ıtulos. La representaci´on simb´olica es una serie que representa los candlesticks que se obtienen a partir de los precios reales. Esta representaci´on depende de los par´ametros seleccionados por el usuario para efectos de la codificaci´on
• Generaci´on de expectativas para Dise˜no de portafolio. Con las series simb´olicas de los t´ıtulos seleccionados, se construye un cat´alogo hist´orico de patrones, con base en las par´ametros de construcci´on de patrones, seleccionados por el usuario. Para construir el cat´alogo se recorren todas las series simb´olicas, se extraen las secuencias y se identifica el estado de la naturaleza asociado con cada secuencia.
• Dise˜no de portafolio. Para un d´ıa de an´alisis seleccionado, se identifican las secuencias reales de ese d´ıa y se buscan en el cat´alogo las secuencias cuyo estado con mayor probabilidad de ocurrencia este asociado a un estado de mercado creciente (bull).
4.1
Modelo Identificaci´
on Formas B´
asicas
La identificaci´on de formas b´asicas se aborda como un proceso t´ıpico de clasificaci´on, que en la vida real es un proceso de reconocimiento visual de patrones, realizado por el tomador de decisiones, con
Figura 4.1: Sistema clasificador difuso
base en reglas que generalmente se expresan en lenguaje natural. Estas reglas se definen utilizando relaciones de magnitud de las partes que tiene la forma b´asica: cuerpo, cola(sombra) superior y cola (sombra) inferior. Un ejemplo de estas reglas es : si la cola superior es muy peque˜na o peque˜na, el cuerpo es peque˜no, y la cola inferior es larga, la figura b´asica es entonces un hammer(ver Figura 3.5). Es decir el universo del discurso que define los patrones b´asicos es cualitativo, y para efectos de su implementaci´on computacional se requiere entonces de una t´ecnica capaz de manejar informacion de este tipo, es decir que permita la implementaci´on de un modelo definido con informaci´on cualitativa. Con base en esto se define para el modelo propuesto, la tarea de identificaci´on de formas b´asicas como un proceso de clasificaci´on difuso, de tal forma que el mecanismo de razonamiento natural definido a trav´es de reglas, se implemente computacionalmente a trav´es de razonamiento difuso. La arquitectura del sistema clasificador difuso se presenta en la Figura 4.1. A continuaci´on se describen cada uno de sus componentes.
4.1.1
Fuzzificador
Las entradas al fuzzificador son las series de tiempo de los valores caracter´ısticos, de tal forma que una entrada individual es formada por los 4 valores de los precios. Las reglas difusas son evaluadas sobre las magnitudes que representan una forma b´asica: tama˜no del cuerpo, tama˜no de la sombra superior y tama˜no de la sombra inferior. Estas medidas se definen de la siguiente forma:
body=|open−close|/|high−low| (4.1)
upShadow =
|high−open|/|high−low|, open > close
|high−close|/|high−low|, e.o.c (4.2)
lowShadow =
|close−low|/|high−low|, open > close
|open−low|/|high−low|, e.o.c (4.3)
Una forma b´asica se representa entonces como la tripla C = (body, upShadow, lowShadow) con base en las definiciones dadas en las ecuaciones (4.1),(4.2) y (4.3). Cada tripla Ci ser´a evaluada
con base en los conjuntos difusos propios del problema, que ser´an aplicados a las magnitudes de la forma b´asica. En el caso particular de este modelo se definen cinco conjuntos difusos que son
Figura 4.2: Conjuntos difusos
veryshort, short, medium, long, verylong. Las funciones de pertenencia de los conjuntos difusos son las siguientes (ver Figura 4.2):
µveryshort(x) = 1−20x, x≤0,05 0, x >0,05 (4.4) µshort(x) = 10x, x≤0,1 1, 0,1< x≤0,3 2,5−5x, 0,3< x≤0,4 0, x >0,4 (4.5) µmedium(x) = 0, x≤0,3, x >0,7 10x−3, 0,3< x≤0,4 1, 0,4< x≤0,6 7−10x, 0,6< x≤0,7 (4.6) µlong(x) = 0, x≤0,5 5x−2,5, 0,5< x≤0,7 1, 0,7< x≤0,9 1−10x, x >0,9 (4.7) µverylong(x) = 0, x≤0,9 10x−9, x >0,9 (4.8)
4.1.2
Inferencia y reglas
El universo de reglas disponibles est´a definido por la cantidad de formas b´asicas que sirven como clases para el sistema. En esta medida se tiene una regla por cada forma b´asica (ver Figura 3.5). Estas reglas son de la forma IFxisAi andyis Bi THENz=ci con AyB conjuntos difusos y c un valor
real (singleton difuso) para todoi= 1,2, ..., r. Este tipo de reglas son usadas en un m´etodo de razon-amiento difuso conocido como m´etodo de consequente simplificado en la medida que el consequente se define como una asignaci´on a una clase y no a un conjunto difuso. Para efectos de evaluaci´on de los antecedentes de las reglas se utiliza el operadorminentre las variables :
wj =µ
Aj(x)∧µBj(y) =min(µAj(x), µBj(y))) As´ı cada wj representa el valor o pertenencia de una tupla C
i para la la regla j. La regla con el
mayor valorwj es la regla ganadora, es decir, la que define la clase que ser´a asignada a la tupla. El
conjunto de reglas se presenta a continuaci´on:
1. IF body is verylong and up-Shadow is veryshort and low-Shadow isveryshort THEN c = 1 (MARUBOZU)
2. IFbody islong andupShadow is short and lowShadow is short THEN c = 2 (LONG)
3. IF body is medium and up-Shadow is short and lowShadow ismediumTHEN c = 3 (LONG-LOWER-SHADOW)
4. IF (body is long and upShad-ow is veryshort and lowShadow isshort) or (bodyismedium and upShadow is veryshort and low-Shadow ismedium) THEN c = 4 (SHAVEN-HEAD)
5. IF body is short and upShad-ow is veryshort and lowShadow islongTHEN c = 5 (HANGING-MAN)
6. IFbodyisshortandupShadow is short and lowShadow is long THEN c = 6 (HAMMER)
7. IF (body isshort and upShad-ow ismedium andlowShadow is medium) or ( body is short and upShadow isshort and lowShad-ow is medium) or (body isshort and upShadow is medium and lowShadow is short) THEN c = 7 (SPINNING-TOP)
8. IF body is short and upShad-ow is long and lowShadow is shortTHEN c = 8 (INVERTED-HAMMER)
9. IF body is short and up-Shadow is long and lowShad-ow is veryshort THEN c = 9 (SHOOTING-STAR)
10. IF (body islong and upShad-ow is short and lowShadow is veryshort) or (body is medium and upShadow is medium and lowShadow is veryshort) THEN c = 10 (SHAVEN-BOTTOM)
11. IF body is medium and up-Shadow ismediumand lowShad-ow is short THEN c = 11 (LONG-UPPER-SHADOW)
12. IFbody isveryshort THEN c = 12 (DOJI)
Para efectos de asignaci´on de la clase a una tripla (body,upperShadow, lowerShadow), se evalua la tripla con todas las reglas del motor de inferencia y se asigna la clase de la regla con mayor valor
wj. En este caso particular, la defuzzificacion simplemente consiste en convertir el n´umero de la clase
(definido por el valorcde la regla ganadora) a su cadena identificadora respectiva, es decir si la clase de la regla ganadora es 1 el sistema retornar´a que las variables corresponden a una forma b´asica denominada MARUBOZU (Ver Tabla 4.1 y Figura 3.5).
Tabla 4.1: Candlesticks
FORMA Valor Cadena corta
MARUBOZU 1 M
LONG 2 L
LONG LOWER SHADOW 3 LLS
SHAVEN HEAD 4 SH HANGING MAN 5 HM HAMMER 6 H SPINNING TOP 7 ST INVERTED HAMMER 8 IH SHOOTING STAR 9 SS SHAVEN BOTTOM 10 SB
LONG UPPER SHADOW 11 LUS
DOJI 12 D
4.1.3
Otros esquemas de representaci´
on
Adicional al esquema principal de representaci´on que son los candlesticks, se plantean otras formas de representaci´on que se basan tambi´en en la forma natural de reconocimiento de patrones que realizan los analistas t´ecnicos. Esos esquemas adicionales son los siguientes:
• Cuerpo: una forma b´asica se representa por el tama˜no del cuerpo que puede ser Long o Short. • Cuerpo y sombras: una forma b´asica se representa por la tripla (upperShadowSize, bodySize, lowerShadowSize). As´ı una forma de tipo Hammer que tiene una sombra superior corta, un cuerpo corto y una sombra inferior larga, se representa por la cadena SSL.
Para efectos de definici´on de los tama˜nos propios de cada forma b´asica en el modelo se utiliza la tabla 4.2.
Tabla 4.2: Candlesticks y tama˜nos
FORMA SOMBRA SUPERIOR CUERPO SOMBRA INFERIOR
MARUBOZU short long short
DOJI long short long
HAMMER short short long
HANGING MAN short short long
INVERTED HAMMER long short short
LONG short long short
LONG LOWER SHADOW short short long
LONG UPPER SHADOW long short short
SHAVEN BOTTOM short long short
SHAVEN HEAD short long short
SHOOTING STAR long short short
SPINNING TOP long short long
4.1.4
Extensiones de los esquemas de representaci´
on
Cada forma b´asica reconocida, puede tener infomaci´on adicional que contribuye al proceso de re-conocimiento de los patrones. Con el objetivo de evaluar experimentalmente como la informaci´on
disponible influye el proceso, se definen las siguientes extensiones que pueden ser usadas de forma adicional al esquema de representaci´on seleccionado:
• Color: de acuerdo con la diferencia entre el valor de cierre y el de apertura se asigna el color a la forma; si (open−close)≥0 entonces el cuerpo es negro(B), en caso contrario el cuerpo es blanco(W).
• Posici´on relativa: bajo el supuesto que, la ubicaci´on relativa de una forma b´asica respecto a su predecesora influye en el proceso de confirmaci´on de un patr´on se define la posici´on relativa de acuerdo con regiones definidas por las partes de una forma b´asica. Estos puntos son m´aximo, cierre, promedio, apertura y m´ınimo para el caso de formas negras, y m´aximo, apertura, prome-dio, cierre y m´ınimo para el caso de formas blancas. Con estos 5 puntos se establecen 6 regiones (A,B,C,D,E,F) y la posici´on relativa es el rango de regiones que ocupa una forma respecto a su predecesora (Ver Figura 4.3 ).
Figura 4.3: Posici´on relativa
Los esquemas de representaci´on planteados, ser´an utilizados para efectos de trasformar las series de tiempo de los precios en una serie simb´olica de patrones. En la Tabla 4.3 se presentan ejemplos de como un patr´on es codificado con los diferentes esquemas de representaci´on. El patr´on en la figura de la tabla 4.3, tiene unLong negro, un Hammer blanco y unMarubozu negro. ElHammer esta en posici´on relativa A con respecto alLong, y elMarubozu en posici´on EF con respecto alHammer.
4.2
Modelo para Generaci´
on de Expectativas
Una expectativa se expresa como una regla, donde el antecedente es un patr´on o secuencia de formas b´asicas, y el consecuente un estado de la naturaleza. Estos estados de la naturaleza son una expresi´on de
Tabla 4.3: Ejemplos esquemas de representaci´on
Patr´on Esquema B´asico B´asico + color B´asico + pos B´asico + color + pos
Cuerpo L, S, L L-B, S-W, L-B L, S-A, L-EF L-B, S-W-A, L-B-EF
Cuerpo+sombras SLS, SSL,SLS SLS-B, SSL-W, SLS-B SLS, SSL-A, SLS-EF SLS-B, SSL-W-A, SLS-B-EF
Candlesticks L, H, M L-B, H-W, M-B L, H-A, M-EF L-B, H-W-A, M-B-EF
cambio o continuaci´on de la tendencia de la acci´on que expresa el patr´on1, y se definen a continuaci´on:
• Continuation bear: indica que al finalizar el patr´on, la tendencia es de ca´ıda del mercado, si la tendencia antes de la ocurrencia del patr´on era tambien ca´ıda.
• Continuation bull: indica que al finalizar el patr´on, la tendencia es de subida del mercado, si la tendencia antes de la ocurrencia del patr´on era tambien subida.
• Reversal bear: indica un punto de ruptura de la tendencia del mercado al finalizar el patr´on, cuya confirmaci´on se da porque la tendencia pasada era de ca´ıda.
• Reversal bull: indica un punto de ruptura de la tendencia del mercado al finalizar el patr´on, cuya confirmaci´on se da porque la tendencia pasada era de subida.
Para generar entonces las expectativas es necesario construir un cat´alogo de patrones a partir de las series simb´olicas, de tal forma que para un conjunto de activos seleccionados en un dia an´alisis espec´ıfico, el tomador de decisiones pueda identificar los posibles estados de la naturaleza asociados a cada activo, mediante la b´usqueda en el cat´alogo. Es decir, para los activos seleccionados, se identifican las secuencias de formas b´asicas que terminan en el d´ıa de an´alisis y tienen un tama˜no definido por el usuario. Asumiendo que estas secuencias definen el estado del mercado y por lo tanto pueden ser patrones que ya se presentaron en el pasado, se buscan en el cat´alogo con el fin de identificar los estados de la naturaleza asociados con cada secuencia y las probabilidades de ocurrencia de estos estados. Estas secuencias y sus estados de la naturaleza representan las expectativas que el tomador de decisiones usar´a para reducir el universo disponible de activos que conformar´an el portafolio. Por ejemplo, para el activo Exxon el d´ıa 20 de agosto de 2007 se presenta una secuencia de tama˜no dos con la forma [ L-W , ST-W-AD ] y una tendencia pasada de crecimiento. Al buscar la secuencia en el cat´alogo, se encuentra ese patr´on con los estadoscontinuation bull yreversal bull, con probabilidades de ocurrencia 60 % y 40 % respectivamente.
El proceso de catalogaci´on de patrones involucra tres elementos que son: la ventana de selecci´on o tama˜no del patr´on, las formas b´asicas, y la confirmaci´on a trav´es de las tendencias pasada y futura del patr´on. Si bien la literatura (ver [60]) reporta un conjunto de patrones identificados por observaci´on, en este modelo se pretende aprovechar el volumen de informaci´on disponible y explorar el conjunto de patrones que se puedan encontrar en un mercado particular. La estrategia para la construcci´on del cat´alogo de patrones consiste en recorrer el conjunto de datos, para extraer las secuencias de candlesticks en las series mediante ventanas secuenciales. Si la serie tiene 1000 datos y el tama˜no seleccionado para los patrones es 2, de la serie se extraer´an 999 secuencias de tama˜no 2. De forma general, el n´umero de secuencias de tama˜nowa extraer de un serie dendatos es igual an−(w−1). Junto con cada secuencia se debe identificar el estado de la naturaleza asociado con ella, el cual se describe por las tendencias pasada y futura de la secuencia (Ver Figura 4.4). El grupo de los datos seleccionados para estimar la tendencia pasada son lost dias anteriores al dia de inicio de una secuencia; para el caso de la tendencia futura son los t dias posteriores al dia de finalizaci´on de la secuencia.
1Estos estados de la naturaleza se aplican para una acci´on individual y son el insumo para el proceso de dise˜no de
Figura 4.4: Secuencia y estado
Tabla 4.4: Estados de la naturaleza
Estado Pasado Futuro Figura
Continuation bull Bull Bull
Continuation bear Bear Bear
Reversal bull Bull Bear
Reversal Bear Bear Bull
Las tendencias se estiman mediante una regresi´on lineal de la forma yi =α+βx (dondeβ
rep-resenta la tendencia) que se aplica sobre los datos reprep-resentativos de cada tendencia. Estos datos representativos son el precio promedio de cada d´ıa. En el caso queβ >0 se define la tendencia como bull, si β <0 se define la tendencia comobear, y en caso contrario se define comoside o indecisi´on . En esta medida, con la tendencia pasada y futura de cada secuencia se define el estado asociado, de acuerdo con la Tabla 4.4. Cuando ya se tiene el conjunto de patrones con sus respectivos estados de la naturaleza, se construye el cat´alogo como un diccionario de todas las secuencias encontradas en el conjunto de datos.
El cat´alogo de patrones se elabora como un ´arbol de prefijos. Un ´arbol de prefijos es una estructura de datos que se utiliza como arreglo asociativo, donde las llaves o ´ındices se representan como cadenas. Un camino particular de la ra´ız hasta un nodo padre de hojas del ´arbol, es la llave, y las hojas de ese camino representan los valores que se asocian a esa llave. En este tipo de ´arbol, el nodo ra´ız es vac´ıo, y cada nodo representa un caracter o una subcadena de la llave. Para el caso particular del cat´alogo de patrones propuesto, cada nodo del ´arbol representa una forma b´asica codificada, y las hojas son los estados de la naturaleza con el n´umero de veces que ocurre cada estado, para un camino de nodos que va desde la raiz hasta cada padre de ojas. En la Figura 4.5 se presenta un ´arbol de prefijos para patrones de tama˜no 2 y representaci´on b´asica de candlesticks. En esta figura se resalta un camino que representa el patr´on [L, HM], el cual tiene 10 ocurrencias para el estado cont. bull y 50 ocurrencias para el estadocont. bear.
El orden de complejidad de los procesos de actualizaci´on, b´usqueda e inserci´on en el ´arbol tienen como cota superior O(n) donde n es el n´umero de llaves y como cota inferior Ω(w) donde w es el
Figura 4.5: Arbol de prefijos
tama˜no del patr´on. Seg´un esto, el uso de una tabla hash tendr´ıa mejor desempe˜no y realizar´ıa la misma funci´on. Pero el uso del ´arbol de prefijos como diccionario de patrones radica en que la estructura de ´
arbol proporciona las siguientes caracter´ısticas:
• En cada nodo se puede almacenar informaci´on adicional como el n´umero de hojas que descienden de cada nodo o valores particulares de la medidas de inter´es para el camino que llega al nodo.
• Facilita el c´alculo de medidas de inter´es c´omo el soporte, la confianza y la entrop´ıa. Si las expectativas se van a generar a trav´es del cat´alogo, en algunos casos va ser necesario podar o poblar el ´arbol con reglas (caminos sobre el ´arbol) con cierto inter´es definido por esas medidas particulares.
• Reduce el almacenamiento, en la medida que todos los descendientes de un nodo tienen como prefijo com´un el camino del cual son hijos.
• Como cada nodo tiene un conteo de sus hijos, se puede saber cuantos patrones incluyen la secuencia o prefijo definido por un camino que va desde la ra´ız hasta el nodo.
4.2.1
Algoritmo generaci´
on de expectativas
Los pasos para la generaci´on de expectativas son los siguientes:
1. Seleccionar el conjunto de activos a analizar (S)
2. Seleccionar el esquema de codificaci´on a utilizar (R), el tama˜no del patr´on (w) y el tama˜no de la tendencia (t).
4. Codificar las series del conjunto de activos seleccionado, usando el esquema de codificaci´on y los tama˜nos de ventana y tendencias escogidos. La codificaci´on se hace con los precios que van hasta el dia de an´alisis inclusive.
5. Construir el cat´alogo de patrones, extrayendo de las series codificadas las secuencias de tama˜no
wy las tendencias asociadas. Con base en las tendencias se determina el estado de la naturaleza de cada secuencia. Una secuencia y su estado son un patr´on.
6. De las series codificadas se extraen los patrones o secuencias que finalizan en el d´ıa de an´alisis.
7. Buscar en el cat´alogo de patrones las secuencias extraidas en el paso anterior y consultar en en el ´arbol los nodos hojas asociadas con las secuencias, es decir los estados de la naturaleza asociados. Las secuencias extraidas y los estados asociados(con su respectiva probabilidad de ocurrencia) son las expectativas generadas.
A continuaci´on se plantea con base en funciones, el proceso para generaci´on de expectativas descrito anteriormente:
Dado un conjunto S secuenciado por el tiempo donde cada Si es una tupla de la forma Q =
{open, close, high, low},w es el tama˜no del patr´on,t la longitud de la tendencia (pasado y futuro) y
R el esquema de representaci´on seleccionado, el algoritmo general para construcci´on del cat´alogo de patrones es el siguiente:
funcionconstruirCatalogo(S, w, t, R) 1.S0=extraerV entanas(S, w) 2.P =codif icar(S0, R, t)
3.T =construirArbolP ref ijo(P) 4. retornarT
fin-funcion
Teniendo la secuencia S de tuplas Q, el primer paso es construir una colecci´on de subsecuencias deS con tama˜now(funci´onextraerV entanas). Estas subsecuencias luego son codificadas de acuerdo con el tipo de representaci´on elegida; este paso incluye identificar las tendencias pasada y futura del patr´on para definir el estado de la naturaleza asociado con la secuencia (funci´oncodif icar).
Las expectativas se generan para un dia de an´alisis, bas´andose en el cat´alogo de patrones, construido a partir del universo de datos seleccionado por el tomador de decisiones. Ese dia de an´alisis define el fin de un patr´on y el objetivo es entonces identificar ese patr´on y buscar los estados de la naturaleza asociados a este, usando el cat´alogo. Sides el d´ıa de an´alisis, la siguiente funci´on describe de forma general el proceso:
funciongenerarExpectativas(S, w, t, R, d) 1.T =construirCatalogo(S, w, t, R) 2.q=codif icarP atron(S, d, w, R, t) 3.E=encontrarHojas(T, q) 4. retornarE
fin-funcion
La funci´oncodif icarP atron construye un patr´on q a partir del conjunto disponible S, el dia de an´alisis seleccionado, el tama˜no de ventanaw, el tipo de representaci´onRy la longitud de la tendencia
t. La funci´on encontrarHojas retorna el conjunto de hojas (estados de la naturaleza) del ´arbol T, que corresponden al patr´onqy su tendencia.
4.2.2
Extracci´
on reglas interesantes
Cada regla o expectativa representa un patr´on o secuencia de formas b´asicas y su asociaci´on a uno o varios estados de la naturaleza. Una regla es v´alida y proporciona informaci´on si y solo si est´a asociada en gran parte a un solo estado, es decir una regla que el 50 % de las veces que ocurre representa un continuation-bear y que el otro 50 % representa un reversal-bear no tiene sentido porque no proporciona informaci´on al tomador de decisiones. En esta medida es necesario definir una medida que permita seleccionar reglas interesantes desde el punto de vista de calidad de informaci´on.
La entrop´ıa desde el punto de vista de la teor´ıa de la informaci´on se define como una medida de la incertidumbre asociada con una variable aleatoria. A mayor incertidumbre menor la informaci´on contenida, y a menor incertidumbre mayor la informaci´on proporcionada por la variable. Si pi es la
probabilidad de ocurrencia de un eventoi, y la sumatoria de todos lospi para los eventos posibles es
igual a 1, la entrop´ıa se define mediante la siguiente ecuaci´on:
H(p1, p2, .., pn) = n X i=1 pilog(1/pi) =− n X i=1 pilog(pi) (4.9)
Para el caso particular de las reglas generadas en el cat´alogo de patrones, el objetivo es entonces marcar como interesantes solo aquellas que proporcionen la mayor informacion es decir aquellas con la menor entrop´ıa, idealmente aquellas con entrop´ıa cero o muy cercana a cero. Si los eventos son cada uno de los estados de la naturaleza a los cuales est´a asociada una regla o expectativa, a continuaci´on se define la entrop´ıa para una regla:
p1:= probabilidad de ocurrencia del estado continuation bear
p2:= probabilidad de ocurrencia del estado continuation bull
p3:= probabilidad de ocurrencia del estado reversal bear
p4:= probabilidad de ocurrencia del estado reversal bull
p5:= probabilidad de ocurrencia del estado indecisi´on
H=p1log5(1/p1) +p2log5(1/p2) +p3log5(1/p3) +p4log5(1/p4) +p5log5(1/p5) (4.10)
En este caso se utiliza logaritmo en base 5 para que el m´ınimo sea cero y el m´aximo sea 1.
4.3
Selecci´
on de Activos para Dise˜
no de Portafolio
El modelo de dise˜no propuesto se basa en la generaci´on de expectativas presentadas en la secci´on anterior. Asumiendo el supuesto en el cual no son permitidas las posiciones cortas (es decir porcentajes de inversi´on menores que cero), el objetivo es tomar del universo de selecci´on, aquellos activos que esten asociados con una tendencia futura de crecimiento, es decir, aquellos activos que para el d´ıa de portafolio seleccionado tengan asociados los estados decontinuation bull o reversal bear con una probabilidad superior a un umbral dado. Por ejemplo si para un activo la tendencia pasada es bear, solo seria seleccionado si cambia su tendencia a bull, o si la tendencia pasada es bull se selecciona solo si su tendencia se va a mantener. Este esquema de selecci´on corresponde a un perfil de tomador de decisiones amante o indiferente al riesgo en el cual los altos retornos son el objetivo sin tomar muy en cuenta el riesgo, y el horizonte de inversi´on es corto, es decir d´ıa a d´ıa, porque los candlesticks proporcionan una visi´on del comportamiento a corto plazo de los activos.
Los pasos para ejecutar el modelo de dise˜no de portafolio propuesto son los siguientes:
1. Seleccionar el conjunto de activos a analizar (S)
2. Seleccionar el esquema de codificaci´on a utilizar (R), el tama˜no del patr´on (w) y el tama˜no de la tendencia (t).
3. Seleccionar el d´ıa de an´alisis (d), es decir el d´ıa para el cual se van a generar las expectativas. 4. Codificar las series del conjunto de activos seleccionado, usando el esquema de codificaci´on y
los tama˜nos de ventana y tendencias escogidos. La codificaci´on se hace con los precios que van hasta el dia de an´alisis inclusive.
5. Construir el cat´alogo de patrones, extrayendo de las series codificadas las secuencias de tama˜no
wy las tendencias asociadas. Con base en las tendencias se determina el estado de la naturaleza asociado.
6. De las series codificadas se extraen los patrones o secuencias que finalizan en el d´ıa de an´alisis.
7. Buscar en el cat´alogo de patrones las secuencias extraidas en el paso anterior y consultar en en el ´arbol los nodos hojas asociadas con las secuencias, es decir los estados de la naturaleza asociados. Las secuencias extraidas y los estados asociados(con su respectiva probabilidad de ocurrencia) son las expectativas generadas.
8. Del conjunto de expectativas generadas, seleccionar aquellas que proporcionen una perspectiva de crecimiento del activo. Para esto se debe identificar la tendencia pasada real de cada una de las secuencias extraidas en el paso 6. Si la tendencia pasada es bull se debe seleccionar la secuencia solo si la expectativa asociada dice que el estado de mayor ocurrencia esContinuation bull. Si la tendencia pasada esbear se debe seleccionar la secuencia si la expectativa asociada dice que el estado de mayor ocurrencia esReversal bear. El activo se selecciona si la probabilidad de ocurrencia de estado que representa la expectativa creciente, es superior a un umbral definido por el usuario, el cual debe ser mayor a 0.5.
9. Como para cada activo hay una expectativa, las expectativas seleccionadas en el paso anterior definen los activos que ser´an utilizados en la construcci´on del portafolio. Con estos activos ya le corresponde al tomador de decisiones seleccionar los porcentajes de inversi´on que mejor se acomodan a su perifil de riesgo.
Parte III
The illusion of randomness gradually disappears as the skill in chart reading improves. J Murphy