Proyecto de Grado Administración de Empresas
Diego Francisco Martínez Quiñones Administrador de Empresas Ingeniero de Sistemas y Computación
Código 199821062
Asesor:
Alfonso J. Pedraza Martínez Magíster en Ciencias Económicas
Ingeniero Industrial
Documento de Tesis de Grado Facultad de Administración
Universidad de Los Andes Julio de 2006
1
Indice de Capítulos:
1. Introducción ...3
2. Justificación...4
2.1. Resultados esperados ...5
3. Marco Teórico...6
3.1. El Comportamiento de los Clientes en las Grandes Superficies Colombianas ...7
3.1.1. Las Grandes Superficies Colombianas...7
3.1.2. Las Bases de Datos de Clientes...8
3.1.3. El Consumidor de las Grandes Superficies ...9
3.2. Grandes Volúmenes de Información y Técnicas de Minería de Datos ... 12
3.2.1. La Minería de Datos ... 12
3.2.2. Antecedentes ... 12
3.2.3. Árboles de Clasificación ... 15
3.2.4. Market Basket Analysis (Análisis de la Canasta de Mercado) ... 21
3.2.5. Regresión Logística ... 23
3.2.6. Redes Neuronales ... 29
3.2.7 Medición de Resultados y Comparación de Modelos ... 34
4. Aplicación de las Técnicas de Minería de Datos en el Modelo Experimental ... 37
4.1. La Investigación ... 37
4.1.1. Objetivo General... 37
4.1.2. Objetivos específicos... 37
4.2. Metodología ... 39
5. El Modelo Experimental de Comportamiento... 41
5.1. Procesos Generadores de Datos ... 41
5.2. El Modelo Computacional ... 42
5.3. La Estructura de Datos ... 46
5.3.1. Estrato ... 47
5.3.2. Sexo ... 47
5.3.3. Edad ... 48
5.3.4. Situación Laboral ... 48
5.3.5. Profesión u Oficio ... 49
5.4. El Modelo de Minería de Datos ... 50
2
5.4.2. Distribución de: Rubor ... 52
5.4.3. Distribución de: Gelatina ... 53
5.5. Las Técnicas de Minería de Datos sobre el Modelo Experimental ... 54
5.5.1. Árboles de Clasificación:... 55
5.5.2. Regresión Logística: ... 59
5.5.3. Redes Neuronales:... 63
5.5.4. Market Basket Analysis... 67
5.6. Comparación de Modelos de Minería de Datos... 70
5.6.1. ‘Aceite de Cocina’... 70
5.6.2. ‘Rubor’ ... 71
5.6.3. ‘Gelatina’ ... 71
6. Conclusiones ... 72
7. Alcances y Limitaciones... 75
8. Bibliografía ... 76
8.1. Bibliografía utilizada en la investigación ... 76
8.1.1 Libros, Documentos y Papers... 76
8.1.2. Vínculos en Internet... 77
8.2. Bibliografía utilizada para la creación del Modelo Experimental ... 78
8.2.1 Libros, Documentos y Papers... 78
8.2.2. Vínculos en Internet... 78
9. Anexos... 79
Anexo 1: Formato de Entrevista ... 79
Anexo 2: Patrones de comportamiento encontrados... 81
Anexo 3: Productos utilizados ... 85
3
1. Introducción
El sector de las Grandes Superficies en Colombia ha crecido de forma importante durante los
últimos quince años, tiempo en el cual algunas cadenas han pasado de tener un carácter
local o regional, a convertirse en empresas de nivel nacional e incluso internacional. Al
mismo tiempo varias cadenas internacionales han ingresado al mercado interno, como
Carrefour en 19981 y Casino, con la adquisición del 25% de las acciones de Éxito-Cadenalco
en 19992.
Si bien por ahora la mayoría de los colombianos prefieren comprar sus mercancías en
tiendas de barrio, pequeños mercados y superétes, es innegable que la conveniencia de
encontrar todas las mercancías en súper e hipermercados ha venido tomando fuerza,
especialmente en los estratos altos de la sociedad3.
Este tipo de empresas se caracterizan por tener un fuerte poder económico, que les permite
realizar inversiones importantes en logística y publicidad, que se ven reflejadas en la
capacidad de atraer clientes a sus establecimientos.
Por ese motivo, y buscando agregar valor a sus clientes para aumentar sus ingresos,
muchas de estas compañías han generado enormes bases de datos, en las cuales registran,
además de la compra y venta de los productos, algunas características adicionales de las
transacciones como el volumen total, el estrato socioeconómico del comprador (o sus niveles
de ingreso) y el modo de pago, con la finalidad de encontrar patrones de comportamiento
que les permitan tomar decisiones que se ajusten a las necesidades de los compradores.
Una de las técnicas que se creó para manejar este tipo de información es la minería de
datos, que como su nombre lo indica, obtiene información de “cavar” profundamente en los
grandes volúmenes de datos, en este caso reflejado en registros de transacciones realizadas
por los clientes, para obtener esa información relevante que permita aumentar la cantidad
de productos que el comprador desea adquirir, y por ende incrementar las ventas y
utilidades de la empresa.
1
Tomado de: Carrefour en los Años 90, http://www.carrefour.com/english/groupecarrefour/annees90.jsp, Septiembre de 2005. 2
Tomado de: Almacenes Éxito – Nuestra Historia. 3
4
2. Justificación
Si bien existen investigaciones que muestran los beneficios de las técnicas de minería de
datos en las grandes superficies más importantes y reconocidas a nivel mundial (ej.
WalMart)4, los resultados obtenidos en ellas comprenden comportamientos y hábitos
correspondientes a culturas diferentes.
En Colombia el estudio de la minería de datos es incipiente y por lo tanto representa la
oportunidad de trabajar sobre aplicaciones prácticas de una teoría que traerá beneficios, en
principio al sector de las grandes superficies y posteriormente a otros sectores sobre los
cuales se realicen investigaciones.
Se efectúa este estudio sobre las grandes superficies porque en este tipo de empresas es
evidente el manejo de grandes volúmenes de datos de clientes y proveedores entre otros, y
por lo tanto representan uno de los modelos más organizados, complejos y completos para
el estudio de la minería de datos.
Las razones por las cuales se utilizará un modelo experimental en lugar de una aplicación
práctica directamente en una empresa del sector son las siguientes:
• El acceso a las bases de datos de clientes es muy restringido y éstas representan en muchos casos una de las ventajas competitivas de las empresas, y por lo tanto la
obtención de esa información se convierte en una seria limitante.
• La creación del modelo experimental permitirá generar conocimiento más allá del alcance de este proyecto, al utilizarlo en otras investigaciones de laboratorio en ámbitos de
mercadeo, logística y procesos productivos entre otros.
4
5
2.1. Resultados esperados
Por las características de esta investigación, existen dos etapas igualmente importantes
sobre las cuales se obtendrán resultados relacionados.
La primera comprende la concepción de un modelo experimental de elaboración de grandes
volúmenes de datos sobre arquitecturas de información estadísticamente viables para el
sector de las grandes superficies, que permita el estudio de minería de datos en un entorno
suficientemente equiparable a la realidad como para obtener conclusiones acertadas acerca
de las metodologías que se utilizarán a continuación.
La segunda etapa comprende la aplicación de las técnicas de minería de datos sobre ese
modelo experimental, con la finalidad de obtener conclusiones acerca de la mejor
metodología aplicable al sector de las grandes superficies. Se espera que las conclusiones
obtenidas de este modelo entreguen datos suficientes como para demostrar empíricamente
las ventajas de la utilización de estas metodologías en las G.S.
Finalmente, el proceso de crear un modelo experimental de este tipo permite la utilización
académica del mismo en aplicaciones futuras de minería de datos y temas relacionados, y se
convierte en un simulador de comportamientos de los clientes de grandes superficies que
será útil en otros ámbitos de la investigación en administración, quedando a disposición,
6
3. Marco Teórico
La finalidad de este proyecto es encontrar las técnicas de minería de datos que mejor se
aplican al análisis de información de las diferentes Grandes Superficies en Colombia,
mediante dos estudios correlacionados:
El primero, la creación de una base de datos simulada que busca capturar las características
más relevantes de aquellas manejadas en la realidad, convirtiéndose así en una
experimentación de laboratorio que permitirá una continua investigación sobre datos que
representan cabalmente la realidad, y que podrá ser utilizada académicamente en
exploraciones futuras.
El segundo, el estudio de la aplicación de los diferentes métodos de minería de datos sobre
la base de datos experimental, para reconocer cuales son algunos de los comportamientos
más importantes de los clientes de las grandes superficies, así como identificar cual de los
métodos utilizados entrega mayor información acerca de los citados comportamientos, y es
el más conveniente para ser aplicado en ese sector de la economía colombiana.
Para la creación de un modelo teórico sobre el comportamiento de los clientes en las
Grandes Superficies, es necesario conocer ampliamente el funcionamiento de sus
componentes. Con ese fin, se expondrá el modelo que manejan las grandes superficies
colombianas, su estructura y el manejo de la información. Luego se presentará la estructura
técnica de las bases de datos que manejan estas empresas, para finalmente explicar
brevemente el comportamiento típico de los clientes.
En segundo lugar se mostrarán cuatro diferentes modelos de minería de datos, a saber:
Árboles de Clasificación, Redes Neuronales, Regresión Logística y Market Basket Analysis, y
su funcionamiento técnico, con la finalidad de entender el modelo que ha sido generado para
simular el comportamiento de los clientes, y la estructura de los procesos que serán
empleados para obtener información relevante de los datos obtenidos.
Finalmente se mostrará el proceso de generación de datos, que es el modelo sobre el cual
7
basan en la información recopilada del sector mediante entrevistas, estudios e informaciónde segundo nivel.
3.1. El Comportamiento de los Clientes en las Grandes Superficies
Colombianas
3.1.1. Las Grandes Superficies Colombianas
A las hipertiendas, supermercados, hipermercados, bodegas de venta, y en general todo
comercio que se dedique a la venta de productos en grandes volúmenes, se les considera
una Gran Superficie5. Existen dos tipos, aquellas que son especializadas y aquellas que no.
Las especializadas6 se enfocan en un nicho de mercado específico, de características
homogéneas, dedicando los esfuerzos hacia proveer los productos necesarios para satisfacer
las necesidades de los clientes que corresponden a ese espacio de mercado. Ejemplos de
este tipo de grandes superficies son Homecenter (Construcción), Ktronix (Electrónicos),
Blockbuster (Películas y entretenimiento), etc.
Las no especializadas son más comunes y de mayor reconocimiento, dedicadas a cubrir un
espectro mucho más amplio de productos y servicios, en espacios usualmente más amplios.
Existen dos conformaciones habituales en este tipo de empresas:
• Por departamentos, en las cuales existe una clara división entre espacios dedicados a los diferentes tipos de producto. Ejemplos de ellas son Fedco, Casa Estrella, Pepe Ganga,
Baby Ganga, Etc.
• Generales, en las cuales la conformación está dada por el tipo de producto y no por el mercado. Fundamentalmente la diferencia radica en la venta de abarrotes y comestibles
junto con otra variedad importante de productos, organizados por góndolas y por
categorías (víveres, comestibles, bebidas, prendas de vestir, aseo, salud, etc.) Ejemplos
de ellas son Alkosto, CAFAM, Carrefour, Carulla-Vivero, Colsubsidio, Éxito-Cadenalco, La
14, etc.
5
Esta definición propia hace uso de la agrupación que hacen el DANE y el DNP en varios estudios acerca de los diferentes formatos de este modelo de negocios según la característica común de tratarse de espacios amplios para realizar compras.
6
El DANE en su Boletín Trimestral de Almacenes hace referencia a las diferencias que existen entre unos y otros modelos de tiendas especializadas y no especializadas, por departamentos, generales, etc.
8
Es esa última conformación de grandes superficies no especializadas a la que hace referenciaesta investigación, ya que en ellas existe una mayor necesidad de entender el
comportamiento de los clientes, puesto que en los demás tipos de tiendas la conformación
está preestablecida y es bastante menos flexible.
Las Grandes Superficies (G.S.) modernas manejan electrónicamente los inventarios con la
ayuda de tecnologías como los códigos de barras. Una vez el comprador pasa por la caja
registradora, ésta descarga los productos que el cliente ha adquirido de la base de datos, y
genera un registro nuevo en el cual se guarda la información de la actividad de ese cliente,
los productos que está comprando, el método de pago (efectivo, cheque, tarjeta débito,
tarjeta crédito, etc.). Si se trata de un cliente reconocido (ej. un afiliado a la Caja en el caso
específico de CAFAM o un poseedor de tarjeta de cliente del Éxito), también se anota su
información personal.
3.1.2. Las Bases de Datos de Clientes
Cada Gran Superficie Colombiana tiene un modelo diferente de manejo de sus bases de
datos. Es así que algunas manejan cada nueva compra como un cliente diferente, mientras
que otras utilizan registros comunes e identificación directa de clientes. Sin embargo,
existen similitudes visibles. Cuando el cliente realiza una compra, automáticamente ésta es
registrada con por lo menos los siguientes datos7:
• Lugar de compra (Almacén, usualmente un código de identificación del mismo) • Fecha de compra
• Número de Caja registradora en que se realizó la compra
• Persona que atendió esa caja (mediante un código de la misma)
• Productos adquiridos (mediante un número único de registro de cada uno) • Valor parcial, descuentos y total de la compra
• Medio de pago (efectivo, cheque, tarjeta débito, tarjeta crédito, bonos, etc.)
Sin embargo, y mediante el uso de tarjetas de descuentos especiales, de afiliación o
similares, varias G.S. toman un registro extra, un número de identificación del cliente que
7
Fuente: Entrevista realizada con el encargado de la sección de mercadeo de CAFAM y otra información obtenida de fuentes secundarias como IBOPE y el DANE.
9
les permite obtener datos más allá de aquellos generados por el proceso de compra, con losque cuentan en otra base de datos, entre los que usualmente se encuentran:
• Datos básicos del cliente (nombre completo, dirección, teléfono, etc.) • Datos de ingresos (salario o estrato)
• En algunos casos, empresa en la cual trabajan.
Existe una tercera fuente de información que obtiene datos del cliente y sus actividades: el
uso de tarjetas de crédito. Las entidades que manejan estos formatos (En Colombia
Credibanco y Master Card principalmente) registran a su vez la actividad de compra de los
clientes y la compilan, entre otras actividades, para reconocer el servicio que le deben
prestar a sus cuenta-habientes, los topes y el endeudamiento promedio al que se someten.
3.1.3. El Consumidor de las Grandes Superficies
Son diversas las razones para diferenciar el cliente de una Gran Superficie de uno de tienda
de barrio. Entre otros comportamientos, el comprador de tienda de barrio desea encontrar
artículos puntuales para solventar una necesidad momentánea, y en ocasiones comprará
exclusivamente las unidades necesarias para sortear el momento o el día. Por el contrario,
el cliente de Grandes Superficies tiende a buscar un abastecimiento más completo, se toma
su tiempo para realizar la compra y adquiere en una sola operación una importante variedad
de artículos8.
La primera razón es el nivel de ingresos. Se ha demostrado que en los últimos años, tras la
recesión económica del país, muchas personas han cambiado sus hábitos hacia volver a las
tiendas, en las cuales compran exactamente lo indispensable para el día 9. El consumidor de
Gran Superficie adquiere usualmente en un solo mercado la cantidad suficiente para al
menos una semana10.
La segunda razón es la distancia entre el lugar de trabajo y la vivienda. Muchos
consumidores se detienen en el camino hacia sus hogares a realizar las compras, y si el
8
Fuente: IBOPE, Encuesta TGI-EGM Colombia 2004 ola I. 9
Tomado del Boletín Trimestral de Almacenes. DANE, Septiembre de 2005. 10
10
trayecto es suficientemente grande, preferirán ingresar a una G.S. que a las tiendas debarrio11.
En tercer lugar, el hecho de contar con un vehículo propio. Los clientes que cuentan con
este servicio pueden desplazarse con mayor facilidad hacia los puntos de venta de las G.S.,
y tienden a llevar mayores cantidades de mercancías. Esta situación es tan evidente que el
Día Sin Carro (primer jueves de febrero), las ventas de las G.S. bogotanas se disminuyen
considerablemente12.
El comportamiento de los clientes de las Grandes Superficies es relativamente predecible, ya
que según diversos estudios, el consumidor regresa a comprar una serie de productos de
forma habitual, y sólo algunos otros por impulso. Aumentar ese consumo por impulso y
convertirlo en consumo habitual es una estrategia que pueden desarrollar las G.S., pero
para ello se debe conocer cuáles son esos hábitos de consumo que tiene el comprador
promedio, y qué productos adquiere por impulso. Para contestar este tipo de preguntas se
puede utilizar la minería de datos.
Entre los patrones que siguen los consumidores, según la investigación realizada sobre los
datos de IBOPE, utilizando tablas cruzadas de datos demográficos versus productos
disponibles en supermercados y grandes superficies, están, entre otros, los siguientes:
• Hombres de estrato 2 que tienen entre 25 y 34 años y que trabajan en Mantenimiento compran:
• Absorbentes para Incontinencia Urinaria First Quality
• Champú Aquamarine ó Kwell
• Productos para Limpieza Facial Revlon
• Ron Cortez Ron ó Sun Dry
• Té JC
• Tequila Herradura
• Vodka Koskenkorva ó de Otras marcas
• Whisky,J&B
• Hombres de estrato 3 que tienen entre 25 y 34 años y que trabajan en Servicios Generales compran:
• Absorbentes para Incontinencia Urinaria de Otras marcas
• Bebidas Energizantes Erektus
• Bebidas Hidratantes de Otras marcas
• Condones de Otras marcas
• Jugos Envasados Listos Santal Light
• Pañales Desechables Pampers
• Productos para el Control del Acné Clinique
• Hombres de estrato 6 que tienen entre 20 y 24 años y que se dedican a la Educacion compran:
• Aperitivos / Cocteles Preparados de Otras marcas
11
Tomado del Boletín Trimestral de Almacenes. DANE, Septiembre de 2005. y Entrevista con la Sección de Mercadeo de CAFAM. 12
11
• Hombres de estrato 3 que tienen entre 12 y 34 años y que se dedican a la Produccion compran:
• Bebidas Hidratantes,Zapp
• Hombres de estrato 6 que tienen entre 25 y 34 años y que trabajan en oficios administrativos compran:
• Bebidas Hidratantes Zapp
• Ron Boyacá
• Mujeres de estrato 3 que tienen entre 25 y 34 años y que trabajan en Finanzas compran:
• Cereales Special K
• Hombres de estrato 3 que tienen entre 45 y 54 años y que trabajan en Otros Servicios compran:
• Cerveza Amstel Light
• Champú Shampiojos
• Cigarrillos American Gold ó Caribe ó Imperial ó L&M Rojo ó President
• Ponqués de Paquete,Colsubsidio
• Mujeres de estrato 2 que tienen entre 35 y 44 años y que trabajan en Ventas compran:
• Gelatina Arcoiris
• Jabones de Tocador Líquidos Neutrogena
• Jugos Envasados Listos Colibrí
• Perfumes y Colonias Estée Lauder
• Remedios para el Malestar Estomacal Colaxín
• Mujeres de estrato 2 que tienen entre 25 y 34 años y que trabajan en Ventas compran:
• Perfumes y Colonias Estée Lauder
• Productos para Protección Solar Coppertone
• Personas de estrato 3 que tienen entre 35 y 44 años que están desempleadas y cuyo oficio son las Ventas compran:
• Remedios para el Malestar Estomacal Imodium
• Personas de estrato 2 que tienen entre 35 y 44 años y que trabajan en Educacion compran:
• Remedios para la Gripa. Tos. Fiebre y Dolor de Garganta Cheracol
• Mujeres de estrato 4 que tienen entre 25 y 34 años y que trabajan en Salud compran:
• Vodka de Otras marcas
Para un listado completo de estos patrones, por favor remítase al anexo 3 de este
12
3.2. Grandes Volúmenes de Información y Técnicas de Minería de
Datos
3.2.1. La Minería de Datos
Las técnicas de minería de datos han tomado cada vez más fuerza como un método para
obtener información relevante a partir del manejo de grandes volúmenes de información. Lo
novedoso de esta técnica, formulada por primera vez en 199513, radica en la capacidad de
realizar predicciones y manejar un nivel de inteligencia artificial sobre la información
contenida en esas fuentes mediante el uso de diversas técnicas entre las que se encuentran:
árboles de clasificación, regresión logística, market basket analysis y redes neuronales entre
otras.
La implementación de este tipo de estructuras en las organizaciones es bastante reciente,
pero aún así ha demostrado resultados positivos e interesantes en la obtención utilidades,
tanto en términos financieros como de mercadeo, logística y otras muchas ramas
administrativas, al permitir la exploración de variaciones, comportamientos, patrones, etc.
en las bases de datos que por años se han venido manejando. Un ejemplo claro es el
manejo de proveedores que realiza actualmente WalMart, que basándose en la información
de compras previas, es capaz de predecir el momento justo de la próxima compra,
disminuyendo así los costos por inventarios y los tiempos de entrega de cada uno de los
productos14.
3.2.2. Antecedentes
La primera descripción de minería de datos fue concebida durante el primer taller
“International Workshop on Knowladge Discovery and Data Mining” en 1995. En ese evento se mencionaron las bases teóricas de las técnicas de minería de datos que incorporan
conocimientos de las ciencias aplicadas, la ingeniería y los negocios.
13
Fue durante ese año que se realizó el “First International workshop on Knowledge Discovery and Data Mining”. 14
13
Sin embargo, en los diez años que lleva acuñado el término dentro del léxico académico nose ha logrado un consenso acerca de la verdadera definición del mismo, aunque si existe
coincidencia en los aspectos esenciales de la minería de datos. Aún así, el Grupo Gartner15
entrega una definición que es tal vez la más completa y aceptada, que cita:
“La minería de datos es el proceso de descubrir nuevas correlaciones significativas, patrones y comportamientos, filtrando grandes volúmenes de
datos almacenados en repositorios, usando
tecnologías de reconocimiento de patrones así como técnicas estadísticas y matemáticas.”16
Sin embargo existen otras definiciones igualmente interesantes, como la de M.J.A. Barry et
al17:
“La minería de datos es la exploración y análisis, por medio del uso de métodos automáticos y semiautomáticos, de grandes volúmenes de datos con el fin de descubrir reglas y patrones significativos”18
El Instituto Tecnológico de Massachussets (MIT), en sus desarrollos e investigaciones
avanzadas sobre este tema, cataloga las posibles interacciones entre la minería de datos y la
aplicación organizacional como “directivas”, y propone que tiene implicaciones en varios
aspectos de la vida empresarial, que son19:
• Mercadeo: pasa de enfocarse en productos y servicios hacia un enfoque en los clientes.
15
El Grupo Gartner es una corporación dedicada a la investigación y al análisis de la industria de las tecnologías de información a nivel mundial.
16
Traducción propia, tomada de: Data Mining Overview, MIT. 17
Traducción propia, tomada de: Data Mining Techniques For Marketing, Sales and Customer Relationship Management 18
Traducción propia, tomada de: St@tServ Data Mining Page. 19
Fuente: Data Mining Overview, MIT. En este documento se da un vistazo a la forma en la cual se ven beneficiadas las organizaciones al utilizar técnicas de minería de datos.
14
• Tecnologías de Información: pasa del enfoque en balances a-la-fecha20, hacia un enfoquede patrones de transacciones, bodegas de datos y tecnologías OLAP.
• Impacto en los costos: mediante la disminución dramática en costos de bodegaje, que se logra con el uso de volúmenes inmensos de datos para predecir comportamientos de
ventas y así el manejo de la logística operacional.
• Captura automática de datos transaccionales: uso de CRM, captura de datos esenciales, localización de clientes, códigos de barras, etc.
• Internet: mediante la interacción personalizada y manejo longitudinal de datos.
Para ese fin, se utiliza el conocimiento adquirido en diferentes disciplinas, entre las que se
cuentan los métodos estadísticos, especialmente modelos descriptivos y de regresión, así
como de clusters; las técnicas en sistemas, especialmente en redes neuronales; las reglas
de asociación en las bases de datos; desarrollos paralelos: métodos por árboles y
herramientas orientadas al manejo de grandes volúmenes de datos dinámicos como OLAP.
Bajo estas condiciones y proposiciones, se muestra a la minería de datos como un conjunto
de herramientas para obtener mayores utilidades en varios ámbitos empresariales mediante
el estudio en detalle de sus bases de datos. Este tipo de investigaciones aún es incipiente
en muchos lugares del mundo, incluyendo a Colombia.
20
Un balance a-la-fecha se refiere al manejo diario de información sin tener en cuenta patrones de registro que sirvan para prever situaciones futuras. Este tipo de balances son los que maneja la mayoría de empresas, incluyendo las Grandes Superficies.
15
3.2.3. Árboles de Clasificación
En 1986, Leo Breiman et al., con el libro “Classification and regression Trees” crearon las
bases para esta técnica de minería de datos. La idea del modelo es simple: servir como
herramienta para clasificar la información que se tiene de forma que se agrupe en la menor
cantidad de conjuntos o clases posibles que contengan datos del mismo tipo.
Para comprender este modelo primero se debe entender qué es un árbol en términos
matemáticos. Gries y Schneider describen un árbol como “Un grafo conexo libre de giros
que no contiene ciclos”21. Esto significa un grupo de nodos de un grafo, cada uno conectado
al menos con otro (ninguno libre o suelto), y con un único camino posible y existente (sin
ciclos) para llegar de uno nodo específico a otro.
Figura 1: Un grafo de tipo árbol binario
La figura 1 muestra un árbol binario, que corresponde a un grafo en el cual cada nodo tiene
únicamente un nodo padre y éste tiene máximo dos nodos hijos. En este ejemplo se ve
claramente que existe únicamente un camino para llegar de un nodo cualquiera a otro, y
además no hay subárboles o nodos sueltos.
El árbol de clasificación es exactamente un grafo de tipo árbol eneario (cada nodo tiene un
único padre y no tiene límite en la cantidad de hijos) de las características anteriormente
descritas, utilizado para repartir los datos en subgrupos más pequeños.
Se trata de dividir un espacio -con tantas dimensiones como tipos de datos existan en el
modelo- en subespacios que representan agrupaciones más depuradas de los datos, es
21
16
decir, en las cuales se encuentre una amplia mayoría de un tipo específico de datos, y pocoso ninguno de otro tipo.
El espacio original será la raíz del árbol, y cada uno de los subespacios resultantes (por tipo)
serán los nodos “hijo” de la raíz. Una vez realizado ese proceso, se debe repetir una y otra
vez recurrentemente hasta tanto se hayan dejado absolutamente todos los datos separados
en nodos o subespacios en los cuales no existan datos de otro tipo.
El problema de dividir los datos de forma homogénea es bastante complejo, razón por la
cual la mayoría de las particiones se realizan de forma intuitiva. Sin embargo, el problema
contrario, reconocer si una partición realizada es “pura” o “buena” es bastante sencillo. De
ahí que en la práctica se evalúa la “pureza” de diferentes particiones que parecen lógicas
intuitivamente, tomando la que los algoritmos sugieren que es la más pura de todas.
La pureza se puede describir, según M.J.A. Berry et al, como una medida que varía entre 0
(cuando no hay dos ítems en la muestra que pertenezcan a la misma clase) y 1 (cuando
todos los ítems de la muestra hacen parte de la misma clase). Existe también la medida
complementaria, Diversidad, que se refiere al extremo contrario (1 – pureza = diversidad).
Existen varios algoritmos que son capaces de evaluar la pureza de una partición, entre las
que se cuentan los algoritmos de GINI o de Diversidad de Población, Entropía o Ganancia de
Información, y la prueba Chi-cuadrado. No es el objetivo de este documento describir a
profundidad todos los algoritmos para dividir agrupaciones de datos22. Sin embargo, para
mayor ilustración, a continuación se expone el algoritmo GINI.
El algoritmo, nombrado tras su creador, Corrado Gini, fue ideado para medir la distribución
de la riqueza existente a principios del siglo XX. En su documento “Variabilità e mutabilità”
de 1912, Gini explicó que la “inequidad” de la riqueza se puede describir en un número
matemático. Este número corresponde al área existente entre la distribución perfecta de
riquezas –en la cual cada individuo tiene exactamente la misma riqueza- y la Curva de
Lorenz, que describe la distribución de riqueza desde un punto de vista económico23.
22
Para una descripción detallada de dichas técnicas, consulte: M.J.A Berry et al, p176. 23
Para mayor información sobre el coeficiente Gini y la Curva de Lorenz, remítase a: Paper A 04.01: Measuring Inequality: The Origins of the Lorenz Curve and the Gini Coefficient, M. Schneider, Escuela de Negocios, Universidad La Trobe, Australia.
17
La gran ventaja de este número es que permite disponer en forma de coeficiente ladistribución de la riqueza de una región o un país. Es así que en la actualidad una medida
muy aceptada para comparar el bienestar social de los países es el coeficiente Gini.
La aplicabilidad que tiene el coeficiente Gini en la minería de datos radica en la capacidad de
describir de una forma sencilla la distribución de “riquezas” o en este caso datos en una
población de los mismos. Este cálculo se puede realizar de la siguiente forma24:
Sea U el universo de todos los datos que van a ser evaluados, S el conjunto de subespacios
en que se dividirá el universo U y Sj un subespacio de ese conjunto S con las mismas
características de U. Sea Di el conjunto de subespacios de un solo tipo de datos que se
encuentran en el espacio Sj y Dij un conjunto que contiene un único tipo de datos con las
propiedades25:
∑
∑
= ==
=
=
=
=
=
=
i C i ij j K j j ij ij i i j jN
N
y
N
N
D
N
D
C
S
N
S
K
U
N
1 1La pureza de un nodo Sj está dada por:
( )
∑
( )
∑
[
]
= ==
=
j jN i j ij j N i j ij
j
ó
Pureza
S
P
D
S
N
N
S
Pureza
1 2 1 2)
|
(
Y la pureza de la partición S es:
( )
∑
==
K j j jTotal
Pureza
S
N
N
Pureza
1 24La descripción matemática y de conjuntos expuesta en este documento se trata de una adaptación propia basada en los ejemplos propuestos por M.J.A. Berry et al, p81.
25
Matemáticamente los paréntesis planos determinan la cardinalidad de un conjunto. En este caso, |U| determina la cantidad de elementos presentes en el universo de los datos.
18
Una vez se reconoce que una partición es pura, se puede proceder a realizar otra partición,esta vez sobre cada uno de los subespacios resultantes hasta tanto se haya dividido el
universo de los datos en subespacios que contengan únicamente datos de un mismo tipo en
cada hoja del árbol.
Hecho ese procedimiento, se puede notar que el resultado es un árbol en el cual cada nodo
es un subespacio del espacio inmediatamente superior.
Esa clasificación preliminar permite reconocer algunas características, como la dispersión
existente entre los datos, al hacerse necesarios más o menos niveles en el árbol para
distribuirlos totalmente. La noción detrás es que entre menos niveles sean necesarios,
menos dispersos están los datos, y viceversa.
Sin embargo, una vez se han clasificado todos los datos, especialmente cuando se trata de
grandes volúmenes, las clasificaciones resultantes no entregan información evidente, y en la
mayoría de los casos contienen más órdenes de los necesarios para obtener datos
relevantes. Es necesario un paso más para lograr evidenciar las relaciones existentes;
“podar” el árbol de forma que sean visibles las correlaciones.
Para esto se realiza un procedimiento estadístico de mínimo error. Se identifica la cantidad
mínima de niveles tras la cual el error estándar se mantiene relativamente estable. Se ha
comprobado empíricamente que en la mayoría de los casos estudiados, la distribución del
error adquiere una forma que tiende a ser asintótica horizontalmente en los árboles de
clasificación, y que por lo tanto después de cierta cantidad de niveles, el error no decrece de
forma significativa. Este punto se conoce como “mejor poda”. Si se trata de datos muy
diversos, cuya dispersión es tal que el error nunca decrece, el procedimiento concluirá que
se debe tomar la totalidad del árbol para ser estudiado.
Sin embargo esta “mejor poda” puede o no coincidir con otro concepto, la “poda de mínimo
error”, en la cual se evidencia el mínimo error de clasificación, con la menor cantidad de
niveles posibles. Depende entonces del algoritmo utilizado, ya sea CART, C5 u otro tipo, si
se debe utilizar uno u otro concepto a la hora de realizar este paso26.
26
19
El algoritmo más conocido y usado para podar árboles de clasificación es el CART oAlgoritmo de Árboles de Clasificación y Regresión, por sus siglas en inglés, que consiste en
encontrar la Tasa de Error Ajustado, que estará dado en términos de hojas. Ese error
tenderá a decrecer en la mayoría de los casos cuando se aumentan los niveles, y por lo
tanto se deben tomar tantos niveles como sea el punto en el cual ese Error Ajustado se
estabiliza y ya no decrece significativamente.
La tasa de error proviene de la forma en que se realiza la prueba. Los paquetes de software
toman dos grupos de datos, que se llamarán “datos de entrenamiento” y “datos de
validación”. Ambos grupos serán sometidos al mismo procedimiento, con la diferencia que
se hará primero uso de los datos de entrenamiento, y luego, reconociendo ya las reglas
existentes en el modelo obtenidas a partir de ese procedimiento, se utilizan los datos de
validación, sobre los cuales se deben obtener las conclusiones.
Estos dos tipos de datos, que deben ser disyuntos, se comportarán como dos curvas, siendo
la obtenida a partir de los datos de validación la que dirá, en su punto mínimo o el lugar
donde comienza a ser asintótica, cual es el nivel de profundidad al que debe hacerse la
poda.
Existe un tercer grupo, llamado “datos de prueba”, que por la manera en que se trabaja
estadísticamente, se utilizan al final para comprobar que el comportamiento de los datos no
se debe a un evento estadísticamente improbable que invalidaría las conclusiones sobre los
resultados.
La ecuación de error ajustado en CART consiste en la siguiente fórmula:
)
(
_
_
)
(
)
(
t
E
t
cuenta
de
hojas
t
EA
=
+
α
Donde EA(t) es el error ajustado que se está buscando, E(t) es la tasa de error,
α
es unfactor de ajuste que se va aumentando con respecto a la cantidad de subárboles que se han
creado, y cuenta_de_hojas(t) es la cantidad de hojas que existen en el modelo en un punto t
20
Abstrayendo el modelo al proyecto que compete a esta investigación, el universo puede serel comportamiento de los clientes frente a un grupo definido de productos, siendo los datos
los diversos productos. Existirán productos (ramificaciones del árbol) que serán muy poco
dispersos (muy relacionados) y por lo tanto no tendrán muchos niveles. Así mismo habrá
otros que estarán bastante dispersos y necesitarán por lo tanto de varios niveles para ser
clasificados.
Una vez realizado el procedimiento de “poda”, se deben obtener grupos específicos, que
pueden ser asimilados como “clases de clientes”, o tipos de clientes que se comportan de
forma similar. Si se cuenta con suficiente información, se puede inclusive identificar alguna
característica que defina con mayor frecuencia a todos los clientes de esa clase, formando
así una clasificación bajo un nombre específico, por ejemplo clientes con edades entre X y Y,
que corresponden al estrato N.
El resultado será que se puede afirmar que todos los clientes que se encuentren entre el
rango especificado, y por lo tanto pertenecen a una clasificación específica, tienen el
21
3.2.4. Market Basket Analysis (Análisis de la Canasta de Mercado)
El término ACM fue acuñado durante la segunda mitad de la década de 198027, como una
prometedora forma de buscar correlaciones existentes en las ya en ese entonces inmensas
bases de datos, que habían recolectado la información de sus ventas y sus clientes durante
más de un decenio.
En ese momento no existía suficiente capacidad tecnológica en las computadoras accesibles
a las empresas para procesar ese volumen tan alto de datos, y por lo tanto muchas de ellas
decidieron no ingresar en el mundo de la minería de datos hasta casi diez años después.
La lógica detrás del ACM es básica y simple: reconocer si el comprador que tomó un
producto específico, por ejemplo leche, tiene una probabilidad importante de llevar otro
producto, por ejemplo pan, que se convierte en un patrón de comportamiento común.
Esta lógica tiene algunas particularidades. Entre otras, no cumple la ley de simetría, es
decir, el hecho de llevar leche si puede significar llevar pan, pero no necesariamente la
existencia del pan en el carro de mercado implica que la leche estará allí también. Existe
además la posibilidad de que aquel que está comprando pan y leche también lleve huevos,
pero si solo lleva pan o solo lleva leche, no necesariamente va a llevar los huevos. Esto
significa que se trata de encontrar reglas de asociación entre productos diversos, algunas
veces uno a uno, en otras ocasiones uno a varios, varios a uno o varios a varios.
Esas reglas de asociación son las que permiten manejar un concepto matemático y
probabilístico detrás de este tipo de análisis. Para ello se utilizan tres ecuaciones diferentes,
a saber28:
Soporte, o la posibilidad real que haya dos o más productos (Xi) en una canasta de mercado.
Se define como:
)
,...,
,
(
X
1X
2X
nP
S
=
27
Market-Basket Mystery. Retail Technology Quarterly. May 2005. 28
M.J.A. Berry et al, p309 describe la estructura matemática que da soporte a las reglas de asociación, base del Análisis de la Canasta de Mercado.
22
Confianza, o la probabilidad de que estén dos o más productos en la canasta (Xi,…, Xj),dividida en la probabilidad de que una parte de éstos (Yi,…, Yj) esté en la canasta. Se define
como:
}
,...,
,
{
}
,...,
,
{
,
)
,...,
,
(
)
,...,
,
(
2 1 2 1 2 1 2 1 n k kn
Y
Y
Y
X
X
X
Y
Y
Y
P
X
X
X
P
C
=
∈
Y Mejora (o interés, o lift), que es la cantidad de veces más probable de encontrar un grupo
de productos (Yi,…, Yj) dado que otro grupo específico (Xi,…, Xj) está en la canasta. Se
define como:
)
,...,
,
(
)
,...,
,
|
,...,
,
(
2 1 2 1 2 1 n n nY
Y
Y
P
X
X
X
Y
Y
Y
P
M
=
Es así que, utilizando estas ecuaciones, se puede reconocer si un producto o conjunto de
productos existentes en la canasta de mercado hacen más probable la existencia de otro u
otros productos en la misma.
Por su calidad, facilidad de uso e interpretación, en la actualidad este modelo es uno de los
más difundidos entre los grandes almacenes minoristas o “retailers”29, ya que describe de
forma muy sencilla los patrones de consumo de los clientes, basándose en relaciones muy
claras y entendibles.
29
Wal-Mart ha usado este método para obtener mayores utilidades con la distribución de los productos. Así mismo aumenta la calidad del servicio y disminuye los costos de proveedores. Remítase también a: Enhanced Decision Making using Data Mining.
23
3.2.5. Regresión Logística
Regresión logística es un modelo estadístico que se caracteriza por tener variables binarias
(1 ó 0, positivas o negativas), y cuya finalidad es describir de forma apropiada la
distribución de esos datos.
Sus orígenes se remontan al siglo XIX, cuando por primera vez se buscó responder la
incógnita de cómo crece la población humana en el mundo. La respuesta fue más
interesante de lo que se esperaba, ya que los matemáticos de entonces encontraron que con
el paso del tiempo la población iba creciendo en una progresión aritmética del orden de Xn,
donde n es el número de generaciones y X es el número de neonatos en el mundo30.
Esta situación fue particularmente estudiada por el astrónomo Alphonse Quetelet
(1795-1874), quien se planteó la imposibilidad de sustentar esa fórmula tras el paso de algunas
pocas generaciones, ya que es asintótica verticalmente y por lo tanto infinita en cuestión de
unos pocos cientos de años (cada generación tiene en promedio 25 años).
Él y su pupilo, Pierre-François Verhulst (1804-1849), mostraron que existe una función a la
cual se asemeja más el crecimiento, y que ésta es de forma sigmoide (empinada en principio
y llana pasado un factor de inflexión), con lo cual, aplicando la ya entonces conocida
ecuación de regresión lineal, mostraron que el comportamiento poblacional es realmente
dependiente de factores aparte de los nacimientos, y por lo tanto con un incremento que en
principio si parece una función exponencial simple, pero que pasados algunos años, esa
población tiene que estabilizarse porque existen límites para el crecimiento.
Verhulst publicó sus hallazgos en un pequeño ensayo de cuatro páginas titulado
“Correspondance Mathématique et Physique”, en el cual, mostró el crecimiento de la población en función de otras variables, bajo la fórmula:
t t
e
e
t
W
α ββ α
+ +
+
Ω
=
1
)
(
30
The origins of Logistic Regression, J.S. Cramer. Muestra cómo el primer caso que se intentó suplir con la regresión logística fue el crecimiento de la población frente a la creencia que el mismo es exponencial.
24
Donde W es la población total, t es el tiempo, Ω es un límite poblacional por país,α
es laconstante de regresión y β es el parámetro de crecimiento en el tiempo.
En posteriores publicaciones, el mismo Verhulst explicó que esta ecuación se ajusta bastante
al crecimiento poblacional en países como Rusia, Bélgica y Francia entre otros. También le
dio un nombre a la curva sigmoide resultante, llamándola “curva logística”, en
contraposición a la curva exponencial, o como se le conocía entonces: “curva logarítmica”.
Doscientos años después, la curva logística sigue siendo utilizada para describir poblaciones
y mercados, así como para mostrar el crecimiento que tendrá la introducción de nuevos
métodos o catalíticos en reacciones químicas y procesos industriales.
Sin embargo no fue sino hasta la segunda mitad del siglo XX, cuando ya se intentaban
sustentar y manejar los modelos desde el punto de vista computacional, que se asimiló la
reconstrucción de la ecuación de Verhulst y se creó la ecuación logit (despejada por
Berkerson), basada en una forma de la ecuación normal llamada probit, que era usada para
definir modelos logarítmicos con distribuciones normales, especialmente en casos de química
y farmacología. El logit, que será explicado más adelante, fue la forma de hacer que la
regresión logística se asemejara a una regresión lineal y por lo tanto mostrara un
comportamiento computable con las herramientas del momento.31
En general la regresión es una herramienta matemática de ajustar datos hacia una figura
específica como una línea, una curva, o en casos mucho más complejos, un plano o un
espacio, de tal manera que exista la menor distancia posible de todos los datos de la
muestra frente a la figura que se está estudiando.
La más común de las regresiones es la lineal, en la cual se busca acercar los datos hacia un
polinomio de grado 1 o lineal, de tal manera que todos los datos se aproximen lo más
posible a esa recta32. La forma más usual de representar esta regresión es el modelo:
n n
X
X
X
Y
=
β
0+
1β
1+
2β
2+
...
+
β
31
The origins of Logistic Regression, J.S. Cramer. Habla sobre los orígenes de la función logística desde el siglo XIX hasta finales del siglo XX.
32
En Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p471-623, se puede encontrar detalladamente el modelo de regresión lineal.
25
Donde β1 a βn son los coeficientes de la regresión. Este modelo tiene como característicaimportante que cada uno de los β representa el ajuste hacia la recta Y=f(X1,X2,…,Xn).
Sin embargo, como la mayoría de los modelos estadísticos, la recta que representa
realmente los datos es desconocida, y los ajustes que se realizan se hacen por estimación de
los coeficientes. Para obtenerlos existen tres métodos con amplia difusión:
El primero es el de momentos, en el cual se toma la función de probabilidad y se deriva
frente a la función de momentos. Sin embargo, este método es poco útil en la regresión, ya
que la ecuación no es precisamente una función de densidad de probabilidad, y la aplicación
de momentos sobre ecuaciones con múltiples factores resultaría en el mejor de los casos
impráctica.
El segundo y más comúnmente usado en las regresiones es el de mínimos cuadrados, en el
cual se toma cada dato y se compara con la recta, tomando los cuadrados de las distancias
“paralelas a Y” entre los puntos en que se encuentran los datos y sus correspondientes
puntos estimados sobre la recta. De esa forma, se obtiene la siguiente ecuación:
Y
X
X
X
T)
1 T(
−→
=
β
)
Donde X es la matriz de los Xnk observaciones (variables independientes) que se realizaron,
k son la cantidad de clases de datos y n es el número de datos por clase que se tomaron.
Así mismo β es el elemento vectorial de cada uno de los βk estimadores presentes y Y es el
vector de las Yn variables dependientes.
El tercer método, más usado para obtener estimadores de parámetros externos a la
regresión, es el de máxima verosimilitud, proceso en el cual se logra encontrar
matemáticamente un estimador que cumple con ser viable frente al parámetro real
mediante la maximización de la función de verosimilitud, o en palabras más claras,
encontrando el estimador que hace más factible que la función de verosimilitud se parezca al
parámetro que se desea encontrar. La función es la siguiente:
∏
=
=
ni
i
X
f
L
1
)
,
(
)
26
Para encontrar el máximo de una función, matemáticamente se puede derivar ésta eigualarla a cero (punto en el cual la pendiente es cero, por lo tanto es máxima o mínima).
El estimador de máxima verosimilitud por lo tanto será:
0
)
(
ln
=
β
β
d
L
d
, despejando β.
La regresión logística no es diferente. Se trata de acercar los datos existentes hacia una
curva logarítmica, que para el efecto de la minería de datos se ajusta más a modelos de
grandes volúmenes, ya que suaviza los casos excepcionales y extremos (por utilizar la
función logarítmica) y clasifica por medio de probabilidades las clases que se pueden
encontrar en la base de datos.
Otra característica particular de este modelo es el uso de una variable éxito-fracaso o binaria
para el manejo de clasificaciones, de tal manera que se puede decir, en palabras, que esta
aproximación permite “reconocer que tan probable es que, en el conjunto de los datos, el
caso Yi sea cierto”.
Finalmente, lo que logra este formato es comprobar matemática y estadísticamente que una
clasificación dada, o una agrupación específica de datos (patrón) es probabilísticamente
viable, al definir numéricamente con qué probabilidad una agrupación se puede dar -frente a
la posibilidad de que no sea así-, o un patrón se puede presentar -frente a la opción que no
lo haga-. La fórmula utilizada para esta expresión es33:
n n n n
X X
X
X X
X
i
e
e
P
β β β ββ β
β β
+ + + +
+ + + +
+
=
......2 2 1 1 0
2 2 1 1 0
1
Esta ecuación se puede reescribir en una de regresión lineal múltiple, de la siguiente forma:
33
Esta fórmula corresponde a la versión actual de la ecuación original de Verhulst, y que como se verá más adelante, corresponde claramente a una ecuación logística. Para mayor ilustración vea: The origins of Logistic Regression, J.S. Cramer.
27
n n i i X X X i i X X X i i X X X i X X X X X X iX
X
X
P
P
e
P
P
e
P
P
e
P
e
e
P
n n n n n n n n n nβ
β
β
β
β β β β β β β β β β β β β β β β β β β β+
+
+
+
=
−
=
=
−
=
=
−
=
+
=
=
+
=
+ + + + + + + + + + + + + + + + + + + +...
1
ln
1
1
1
1
1
1
1
2 2 1 1 0 ... ... ... ... ... 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0Donde la función resultante de la izquierda se conoce como “logit”, que es el logaritmo de la
razón de posibilidades, más conocida como odd ratio, consistente en la división de la
probabilidad de éxito sobre la de fracaso, lo cual permite estimar que tan “positivo” es un
evento específico de los datos estudiados. Un patrón de comportamiento tomado desde este
punto de vista estaría dado por una cantidad alta de probabilidades de éxito frente a una
baja de posibilidades de fracaso (razón mayor que uno), que demostraría la existencia de
una clase Pi con alta probabilidad de ocurrencia.
Esta expresión tiene dos bondades: la primera es la capacidad de exponerla como una
regresión lineal múltiple, que permite hacer el estudio de correlaciones, pruebas de bondad
de ajuste y todos aquellos exámenes que se requieran sobre esta ecuación con las
herramientas más sencillas, conocidas y difundidas. La segunda es la explicación de los
datos, ya que, tomando la ecuación
n n X X X i i
e
P
P
=
β + β + β + + β−
... 2 2 1 1 01
Ésta también se puede expresar, por las propiedades de los exponenciales, como:
n X n X X
e
e
e
e
P
P
ii β
*
β*
β*
...
*
β1
2 2 1 1 0=
−
Donde cada uno de los factores exponenciales expresa la representación de los β existentes,
y así mismo su impacto en la regresión. Esto significa que además, un β que esté cerca de
un valor cero, mostrará que la razón de posibilidades depende en menor cuantía de ese
28
Para el caso específico de las Grandes Superficies, cada uno de los Xi corresponden a unproducto y los β hacen referencia al impacto que tiene ese producto sobre un patrón
específico de comportamiento. Ese patrón debe ser de la forma éxito-fracaso, por ejemplo
estudiar si aquellas personas que consumen cerveza, además incluyen en su compra
gaseosa, pañales y cigarrillos. El éxito radicará en reconocer si realmente es probable que
los consumidores de cerveza compren los demás productos.
La ventaja de utilizar este modelo consiste en que si ese hecho va relacionado con los
pañales y los cigarrillos, pero no con la gaseosa, la regresión mostrará que no se puede
rechazar la hipótesis de que el coeficiente β asociado a la gaseosa es cero, y por lo tanto se
podrá asegurar estadísticamente que la compra de cerveza no tiene relación con la compra
de la gaseosa. Finalmente, y ya que se trata de un modelo numérico, el β asociado también
mostrará el factor (para el ejemplo la cantidad de productos) que identifica la compra y así
reconocerá que el comprador de cerveza, por ejemplo, gusta de comprar más de un
cigarrillo por cada una que decida llevar.
De esa manera, se puede indicar que si bien clasificar no es el fuerte de esta herramienta de
minería de datos, generar y comprobar patrones precisos de comportamiento a través de
regresiones es muy común y suele ser bastante acertado. Además, tras utilizar las
clasificaciones, que pueden ser o no encontradas usando este modelo, se puede estudiar su
validez utilizando herramientas estadísticas de este tipo.
Las dificultades más importantes del modelo radican en la complejidad de interpretación de
los resultados, que como tal muestran muy poco para aquellas personas que no están
entrenadas para distinguirlos. Se trata de experimentos estadísticos que generan
ecuaciones y resultados diversos, y con al menos tres modelos de estudio y corrección sobre
los mismos (prueba de contingencia34, prueba de ANOVA35 y prueba de bondad de ajuste36)
esta situación hace que, si bien las conclusiones en todos los casos usualmente son bastante
cercanas, existe la posibilidad de llegar a diferentes soluciones por diferentes métodos.
34
La prueba de contingencia consiste en comparar datos tabulares muestrales con valores esperados para los mismos, de manera que se pueda concluir si corresponden a las distribuciones en principio planteadas. Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p. 456.
35
La prueba ANOVA consiste en analizar la varianza que tienen los datos muestrales, de tal manera que se pueda contemplar si la prueba corresponde o no a las hipótesis planteadas. Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. 493. 36
La prueba de bondad de ajuste consiste en definir que tanto se acerca la distribución de los datos a una distribución conocida, ya sea ésta normal, ji-cuadrada, student o poisson por nombrar solo algunas. Para Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p.444.
29
3.2.6. Redes Neuronales
Una red neuronal, en su forma más básica, es un modelo que busca simular la forma en la
cual funcionan las neuronas cerebrales. La primera aproximación a este paradigma apareció
a finales del siglo XIX, como el modelo matemático básico que describe la forma en la cual
se comporta, en teoría, un cerebro biológico. Sin embargo, no fue sino hasta los años 1950
que Frederick von Hayek describió ese comportamiento en su escrito “The Sensory Order”
en términos de neuronas independientes y simples que se organizan espontáneamente.
Hayek llegó a esta conclusión conexionista prácticamente al tiempo que Donald Hebb, quien
casi diez años antes había descrito el mecanismo de “plasticidad” de las neuronas, que
consiste en una forma de aprendizaje sin supervisión, conocida como el Aprendizaje
Hebbiano37.
Con base en ese conocimiento, el Laboratorio Aeronáutico de Cornell en Buffalo, N.Y.,
desarrolló el Perceptron, un “clasificador lineal” basado en una forma muy simple de red
neuronal de una sola vía. De esa manera, ajustando pesos, se logra hacer que el modelo se
haga más preciso cada vez. La ecuación del Perceptron es la siguiente:
b
x
w
x
f
(
)
=
(
r
•
)
+
Donde w es un vector de pesos, b es un número y x es el dato o datos estudiados. El
producto punto entre el vector w y la variable x permite que la función tenga un signo, de
tal manera que se puede clasificar a x como una instancia positiva o negativa.
Así mismo, la ecuación Perceptron tiene un algoritmo de aprendizaje, que compara uno a
uno el valor obtenido con la ecuación y el valor real, de la siguiente forma:
(
) (
)
{
x
d
x
nd
n}
Dn
=
1,
1,...,
,
Donde n es la cantidad de ejemplos, xi es el dato ingresado y di es el valor real, o dato
objetivo. Sin embargo, esta segunda ecuación no describe la forma en la cual se encuentra
el error, que es la siguiente:
(
d
i−
y
i)
x
iη
37
La referencia a esta breve historia de las redes neuronales se puede encontrar en: M.A. Arbib The Handbook of Brain Theory and Neural Networks. Y M.J.A. Berry et al, Data Mining Techniques For Marketing, Sales and Customer Relationship Management.
30
Siendo yi el resultado obtenido con la ecuación de Perceptron yη
la tasa de aprendizaje quese desea.
En ese momento histórico la tecnología se hizo insuficiente para manejar la cantidad de
información que requería procesar este algoritmo, de manera que las redes neuronales
entraron en un período de estancamiento. Solo hasta la primera parte de la década de 1980
se retomaría de lleno este modelo.
Entre tanto, en 1975, aparece el modelo teórico del Cognitron, un modelo neuronal un poco
más complejo, en el cual el adelanto más significativo era la existencia de más de una capa
de neuronas, sin embargo aún con la misma limitante del aprendizaje en una sola vía. Esa
limitante hacía impráctico el uso de las redes neuronales, ya que cada vez que el algoritmo
tanto Perceptron como Cognitron termina una función, debe “aprender” calculando en el
mismo sentido la ecuación mediante el ajuste de pesos y errores.
A principios de los años ochenta, John Hopfield38, del Instituto Tecnológico de California,
creó la ecuación de “Propagación de Errores hacia atrás” o Backpropagation. Este avance dio fuerza a una rama de la tecnología informática: la inteligencia artificial, ya que permite
realizar el proceso de estimación y luego, de forma inmediata, trascender el error hacia
atrás, de tal manera que cada nodo obtiene información acerca del mismo para ser
distribuidos en el sistema de pesos de forma que en la siguiente oportunidad el resultado
sea más exacto. En términos coloquiales, el algoritmo de Backpropagation permite a la red aprender de sus errores.
Actualmente se utilizan diversos métodos de ejecución y complejidad con las redes
neuronales, dependiendo de la necesidad que se tenga en la estimación. Aún así, el modelo
básico sigue siendo el mismo: Una o más entradas de datos que alimentan la red, un
procesamiento interno que puede ser directo o con algunos niveles ocultos de neuronas, y
una o más salidas que entregan el resultado de la operación. Finalmente, se retroalimenta
el modelo con los resultados reales mediante el uso del algoritmo de Backpropagation y se ajusta el peso de cada neurona de forma tal que entregue un resultado más ajustado cada
vez. Gráficamente una red neuronal se puede ver de la siguiente forma:
38
Hopfield, en su artículo Neural network and physical systems with emergent collective computational abilities, describió la forma en la cual se puede generar la propagación hacia atrás en las redes neuronales.