Un modelo teórico-práctico de minería de datos aplicado al comportamiento de los clientes en las grandes superficies colombianas

(1)

Proyecto de Grado Administración de Empresas

Diego Francisco Martínez Quiñones Administrador de Empresas Ingeniero de Sistemas y Computación

Código 199821062

Asesor:

Alfonso J. Pedraza Martínez Magíster en Ciencias Económicas

Ingeniero Industrial

Documento de Tesis de Grado Facultad de Administración

Universidad de Los Andes Julio de 2006

(2)

(3)

1 Indice de Capítulos:

1. Introducción ...3

2. Justificación...4

2.1. Resultados esperados ...5

3. Marco Teórico...6

3.1. El Comportamiento de los Clientes en las Grandes Superficies Colombianas ...7

3.1.1. Las Grandes Superficies Colombianas...7

3.1.2. Las Bases de Datos de Clientes...8

3.1.3. El Consumidor de las Grandes Superficies ...9

3.2. Grandes Volúmenes de Información y Técnicas de Minería de Datos ... 12

3.2.1. La Minería de Datos ... 12

3.2.2. Antecedentes ... 12

3.2.3. Árboles de Clasificación ... 15

3.2.4. Market Basket Analysis (Análisis de la Canasta de Mercado) ... 21

3.2.5. Regresión Logística ... 23

3.2.6. Redes Neuronales ... 29

3.2.7 Medición de Resultados y Comparación de Modelos ... 34

4. Aplicación de las Técnicas de Minería de Datos en el Modelo Experimental ... 37

4.1. La Investigación ... 37

4.1.1. Objetivo General... 37

4.1.2. Objetivos específicos... 37

4.2. Metodología ... 39

5. El Modelo Experimental de Comportamiento... 41

5.1. Procesos Generadores de Datos ... 41

5.2. El Modelo Computacional ... 42

5.3. La Estructura de Datos ... 46

5.3.1. Estrato ... 47

5.3.2. Sexo ... 47

5.3.3. Edad ... 48

5.3.4. Situación Laboral ... 48

5.3.5. Profesión u Oficio ... 49

5.4. El Modelo de Minería de Datos ... 50

(4)

2

5.4.2. Distribución de: Rubor ... 52

5.4.3. Distribución de: Gelatina ... 53

5.5. Las Técnicas de Minería de Datos sobre el Modelo Experimental ... 54

5.5.1. Árboles de Clasificación:... 55

5.5.2. Regresión Logística: ... 59

5.5.3. Redes Neuronales:... 63

5.5.4. Market Basket Analysis... 67

5.6. Comparación de Modelos de Minería de Datos... 70

5.6.1. ‘Aceite de Cocina’... 70

5.6.2. ‘Rubor’ ... 71

5.6.3. ‘Gelatina’ ... 71

6. Conclusiones ... 72

7. Alcances y Limitaciones... 75

8. Bibliografía ... 76

8.1. Bibliografía utilizada en la investigación ... 76

8.1.1 Libros, Documentos y Papers... 76

8.1.2. Vínculos en Internet... 77

8.2. Bibliografía utilizada para la creación del Modelo Experimental ... 78

8.2.1 Libros, Documentos y Papers... 78

8.2.2. Vínculos en Internet... 78

9. Anexos... 79

Anexo 1: Formato de Entrevista ... 79

Anexo 2: Patrones de comportamiento encontrados... 81

Anexo 3: Productos utilizados ... 85

(5)

3 1. Introducción

El sector de las Grandes Superficies en Colombia ha crecido de forma importante durante los

últimos quince años, tiempo en el cual algunas cadenas han pasado de tener un carácter

local o regional, a convertirse en empresas de nivel nacional e incluso internacional. Al

mismo tiempo varias cadenas internacionales han ingresado al mercado interno, como

Carrefour en 19981 y Casino, con la adquisición del 25% de las acciones de Éxito-Cadenalco

en 19992.

Si bien por ahora la mayoría de los colombianos prefieren comprar sus mercancías en

tiendas de barrio, pequeños mercados y superétes, es innegable que la conveniencia de

encontrar todas las mercancías en súper e hipermercados ha venido tomando fuerza,

especialmente en los estratos altos de la sociedad3.

Este tipo de empresas se caracterizan por tener un fuerte poder económico, que les permite

realizar inversiones importantes en logística y publicidad, que se ven reflejadas en la

capacidad de atraer clientes a sus establecimientos.

Por ese motivo, y buscando agregar valor a sus clientes para aumentar sus ingresos,

muchas de estas compañías han generado enormes bases de datos, en las cuales registran,

además de la compra y venta de los productos, algunas características adicionales de las

transacciones como el volumen total, el estrato socioeconómico del comprador (o sus niveles

de ingreso) y el modo de pago, con la finalidad de encontrar patrones de comportamiento

que les permitan tomar decisiones que se ajusten a las necesidades de los compradores.

Una de las técnicas que se creó para manejar este tipo de información es la minería de

datos, que como su nombre lo indica, obtiene información de “cavar” profundamente en los

grandes volúmenes de datos, en este caso reflejado en registros de transacciones realizadas

por los clientes, para obtener esa información relevante que permita aumentar la cantidad

de productos que el comprador desea adquirir, y por ende incrementar las ventas y

utilidades de la empresa.

1

Tomado de: Carrefour en los Años 90, http://www.carrefour.com/english/groupecarrefour/annees90.jsp, Septiembre de 2005. 2

Tomado de: Almacenes Éxito – Nuestra Historia. 3

(6)

4 2. Justificación

Si bien existen investigaciones que muestran los beneficios de las técnicas de minería de

datos en las grandes superficies más importantes y reconocidas a nivel mundial (ej.

WalMart)4, los resultados obtenidos en ellas comprenden comportamientos y hábitos

correspondientes a culturas diferentes.

En Colombia el estudio de la minería de datos es incipiente y por lo tanto representa la

oportunidad de trabajar sobre aplicaciones prácticas de una teoría que traerá beneficios, en

principio al sector de las grandes superficies y posteriormente a otros sectores sobre los

cuales se realicen investigaciones.

Se efectúa este estudio sobre las grandes superficies porque en este tipo de empresas es

evidente el manejo de grandes volúmenes de datos de clientes y proveedores entre otros, y

por lo tanto representan uno de los modelos más organizados, complejos y completos para

el estudio de la minería de datos.

Las razones por las cuales se utilizará un modelo experimental en lugar de una aplicación

práctica directamente en una empresa del sector son las siguientes:

• El acceso a las bases de datos de clientes es muy restringido y éstas representan en muchos casos una de las ventajas competitivas de las empresas, y por lo tanto la

obtención de esa información se convierte en una seria limitante.

• La creación del modelo experimental permitirá generar conocimiento más allá del alcance de este proyecto, al utilizarlo en otras investigaciones de laboratorio en ámbitos de

mercadeo, logística y procesos productivos entre otros.

4

(7)

5 2.1. Resultados esperados

Por las características de esta investigación, existen dos etapas igualmente importantes

sobre las cuales se obtendrán resultados relacionados.

La primera comprende la concepción de un modelo experimental de elaboración de grandes

volúmenes de datos sobre arquitecturas de información estadísticamente viables para el

sector de las grandes superficies, que permita el estudio de minería de datos en un entorno

suficientemente equiparable a la realidad como para obtener conclusiones acertadas acerca

de las metodologías que se utilizarán a continuación.

La segunda etapa comprende la aplicación de las técnicas de minería de datos sobre ese

modelo experimental, con la finalidad de obtener conclusiones acerca de la mejor

metodología aplicable al sector de las grandes superficies. Se espera que las conclusiones

obtenidas de este modelo entreguen datos suficientes como para demostrar empíricamente

las ventajas de la utilización de estas metodologías en las G.S.

Finalmente, el proceso de crear un modelo experimental de este tipo permite la utilización

académica del mismo en aplicaciones futuras de minería de datos y temas relacionados, y se

convierte en un simulador de comportamientos de los clientes de grandes superficies que

será útil en otros ámbitos de la investigación en administración, quedando a disposición,

(8)

6 3. Marco Teórico

La finalidad de este proyecto es encontrar las técnicas de minería de datos que mejor se

aplican al análisis de información de las diferentes Grandes Superficies en Colombia,

mediante dos estudios correlacionados:

El primero, la creación de una base de datos simulada que busca capturar las características

más relevantes de aquellas manejadas en la realidad, convirtiéndose así en una

experimentación de laboratorio que permitirá una continua investigación sobre datos que

representan cabalmente la realidad, y que podrá ser utilizada académicamente en

exploraciones futuras.

El segundo, el estudio de la aplicación de los diferentes métodos de minería de datos sobre

la base de datos experimental, para reconocer cuales son algunos de los comportamientos

más importantes de los clientes de las grandes superficies, así como identificar cual de los

métodos utilizados entrega mayor información acerca de los citados comportamientos, y es

el más conveniente para ser aplicado en ese sector de la economía colombiana.

Para la creación de un modelo teórico sobre el comportamiento de los clientes en las

Grandes Superficies, es necesario conocer ampliamente el funcionamiento de sus

componentes. Con ese fin, se expondrá el modelo que manejan las grandes superficies

colombianas, su estructura y el manejo de la información. Luego se presentará la estructura

técnica de las bases de datos que manejan estas empresas, para finalmente explicar

brevemente el comportamiento típico de los clientes.

En segundo lugar se mostrarán cuatro diferentes modelos de minería de datos, a saber:

Árboles de Clasificación, Redes Neuronales, Regresión Logística y Market Basket Analysis, y

su funcionamiento técnico, con la finalidad de entender el modelo que ha sido generado para

simular el comportamiento de los clientes, y la estructura de los procesos que serán

empleados para obtener información relevante de los datos obtenidos.

Finalmente se mostrará el proceso de generación de datos, que es el modelo sobre el cual

(9)

7

basan en la información recopilada del sector mediante entrevistas, estudios e información

de segundo nivel.

3.1. El Comportamiento de los Clientes en las Grandes Superficies

Colombianas

3.1.1. Las Grandes Superficies Colombianas

A las hipertiendas, supermercados, hipermercados, bodegas de venta, y en general todo

comercio que se dedique a la venta de productos en grandes volúmenes, se les considera

una Gran Superficie5. Existen dos tipos, aquellas que son especializadas y aquellas que no.

Las especializadas6_{se enfocan en un nicho de mercado específico, de características}

homogéneas, dedicando los esfuerzos hacia proveer los productos necesarios para satisfacer

las necesidades de los clientes que corresponden a ese espacio de mercado. Ejemplos de

este tipo de grandes superficies son Homecenter (Construcción), Ktronix (Electrónicos),

Blockbuster (Películas y entretenimiento), etc.

Las no especializadas son más comunes y de mayor reconocimiento, dedicadas a cubrir un

espectro mucho más amplio de productos y servicios, en espacios usualmente más amplios.

Existen dos conformaciones habituales en este tipo de empresas:

• Por departamentos, en las cuales existe una clara división entre espacios dedicados a los diferentes tipos de producto. Ejemplos de ellas son Fedco, Casa Estrella, Pepe Ganga,

Baby Ganga, Etc.

• Generales, en las cuales la conformación está dada por el tipo de producto y no por el mercado. Fundamentalmente la diferencia radica en la venta de abarrotes y comestibles

junto con otra variedad importante de productos, organizados por góndolas y por

categorías (víveres, comestibles, bebidas, prendas de vestir, aseo, salud, etc.) Ejemplos

de ellas son Alkosto, CAFAM, Carrefour, Carulla-Vivero, Colsubsidio, Éxito-Cadenalco, La

14, etc.

5

Esta definición propia hace uso de la agrupación que hacen el DANE y el DNP en varios estudios acerca de los diferentes formatos de este modelo de negocios según la característica común de tratarse de espacios amplios para realizar compras.

6

El DANE en su Boletín Trimestral de Almacenes hace referencia a las diferencias que existen entre unos y otros modelos de tiendas especializadas y no especializadas, por departamentos, generales, etc.

(10)

8

Es esa última conformación de grandes superficies no especializadas a la que hace referencia

esta investigación, ya que en ellas existe una mayor necesidad de entender el

comportamiento de los clientes, puesto que en los demás tipos de tiendas la conformación

está preestablecida y es bastante menos flexible.

Las Grandes Superficies (G.S.) modernas manejan electrónicamente los inventarios con la

ayuda de tecnologías como los códigos de barras. Una vez el comprador pasa por la caja

registradora, ésta descarga los productos que el cliente ha adquirido de la base de datos, y

genera un registro nuevo en el cual se guarda la información de la actividad de ese cliente,

los productos que está comprando, el método de pago (efectivo, cheque, tarjeta débito,

tarjeta crédito, etc.). Si se trata de un cliente reconocido (ej. un afiliado a la Caja en el caso

específico de CAFAM o un poseedor de tarjeta de cliente del Éxito), también se anota su

información personal.

3.1.2. Las Bases de Datos de Clientes

Cada Gran Superficie Colombiana tiene un modelo diferente de manejo de sus bases de

datos. Es así que algunas manejan cada nueva compra como un cliente diferente, mientras

que otras utilizan registros comunes e identificación directa de clientes. Sin embargo,

existen similitudes visibles. Cuando el cliente realiza una compra, automáticamente ésta es

registrada con por lo menos los siguientes datos7:

• Lugar de compra (Almacén, usualmente un código de identificación del mismo) • Fecha de compra

• Número de Caja registradora en que se realizó la compra

• Persona que atendió esa caja (mediante un código de la misma)

• Productos adquiridos (mediante un número único de registro de cada uno) • Valor parcial, descuentos y total de la compra

• Medio de pago (efectivo, cheque, tarjeta débito, tarjeta crédito, bonos, etc.)

Sin embargo, y mediante el uso de tarjetas de descuentos especiales, de afiliación o

similares, varias G.S. toman un registro extra, un número de identificación del cliente que

7

Fuente: Entrevista realizada con el encargado de la sección de mercadeo de CAFAM y otra información obtenida de fuentes secundarias como IBOPE y el DANE.

(11)

9

les permite obtener datos más allá de aquellos generados por el proceso de compra, con los

que cuentan en otra base de datos, entre los que usualmente se encuentran:

• Datos básicos del cliente (nombre completo, dirección, teléfono, etc.) • Datos de ingresos (salario o estrato)

• En algunos casos, empresa en la cual trabajan.

Existe una tercera fuente de información que obtiene datos del cliente y sus actividades: el

uso de tarjetas de crédito. Las entidades que manejan estos formatos (En Colombia

Credibanco y Master Card principalmente) registran a su vez la actividad de compra de los

clientes y la compilan, entre otras actividades, para reconocer el servicio que le deben

prestar a sus cuenta-habientes, los topes y el endeudamiento promedio al que se someten.

3.1.3. El Consumidor de las Grandes Superficies

Son diversas las razones para diferenciar el cliente de una Gran Superficie de uno de tienda

de barrio. Entre otros comportamientos, el comprador de tienda de barrio desea encontrar

artículos puntuales para solventar una necesidad momentánea, y en ocasiones comprará

exclusivamente las unidades necesarias para sortear el momento o el día. Por el contrario,

el cliente de Grandes Superficies tiende a buscar un abastecimiento más completo, se toma

su tiempo para realizar la compra y adquiere en una sola operación una importante variedad

de artículos8.

La primera razón es el nivel de ingresos. Se ha demostrado que en los últimos años, tras la

recesión económica del país, muchas personas han cambiado sus hábitos hacia volver a las

tiendas, en las cuales compran exactamente lo indispensable para el día 9. El consumidor de

Gran Superficie adquiere usualmente en un solo mercado la cantidad suficiente para al

menos una semana10.

La segunda razón es la distancia entre el lugar de trabajo y la vivienda. Muchos

consumidores se detienen en el camino hacia sus hogares a realizar las compras, y si el

8

Fuente: IBOPE, Encuesta TGI-EGM Colombia 2004 ola I. 9

Tomado del Boletín Trimestral de Almacenes. DANE, Septiembre de 2005. 10

(12)

10

trayecto es suficientemente grande, preferirán ingresar a una G.S. que a las tiendas de

barrio11_.

En tercer lugar, el hecho de contar con un vehículo propio. Los clientes que cuentan con

este servicio pueden desplazarse con mayor facilidad hacia los puntos de venta de las G.S.,

y tienden a llevar mayores cantidades de mercancías. Esta situación es tan evidente que el

Día Sin Carro (primer jueves de febrero), las ventas de las G.S. bogotanas se disminuyen

considerablemente12.

El comportamiento de los clientes de las Grandes Superficies es relativamente predecible, ya

que según diversos estudios, el consumidor regresa a comprar una serie de productos de

forma habitual, y sólo algunos otros por impulso. Aumentar ese consumo por impulso y

convertirlo en consumo habitual es una estrategia que pueden desarrollar las G.S., pero

para ello se debe conocer cuáles son esos hábitos de consumo que tiene el comprador

promedio, y qué productos adquiere por impulso. Para contestar este tipo de preguntas se

puede utilizar la minería de datos.

Entre los patrones que siguen los consumidores, según la investigación realizada sobre los

datos de IBOPE, utilizando tablas cruzadas de datos demográficos versus productos

disponibles en supermercados y grandes superficies, están, entre otros, los siguientes:

• Hombres de estrato 2 que tienen entre 25 y 34 años y que trabajan en Mantenimiento compran:

• Absorbentes para Incontinencia Urinaria First Quality

• Champú Aquamarine ó Kwell

• Productos para Limpieza Facial Revlon

• Ron Cortez Ron ó Sun Dry

• Té JC

• Tequila Herradura

• Vodka Koskenkorva ó de Otras marcas

• Whisky,J&B

• Hombres de estrato 3 que tienen entre 25 y 34 años y que trabajan en Servicios Generales compran:

• Absorbentes para Incontinencia Urinaria de Otras marcas

• Bebidas Energizantes Erektus

• Bebidas Hidratantes de Otras marcas

• Condones de Otras marcas

• Jugos Envasados Listos Santal Light

• Pañales Desechables Pampers

• Productos para el Control del Acné Clinique

• Hombres de estrato 6 que tienen entre 20 y 24 años y que se dedican a la Educacion compran:

• Aperitivos / Cocteles Preparados de Otras marcas

11

Tomado del Boletín Trimestral de Almacenes. DANE, Septiembre de 2005. y Entrevista con la Sección de Mercadeo de CAFAM. 12

(13)

11

• Hombres de estrato 3 que tienen entre 12 y 34 años y que se dedican a la Produccion compran:

• Bebidas Hidratantes,Zapp

• Hombres de estrato 6 que tienen entre 25 y 34 años y que trabajan en oficios administrativos compran:

• Bebidas Hidratantes Zapp

• Ron Boyacá

• Mujeres de estrato 3 que tienen entre 25 y 34 años y que trabajan en Finanzas compran:

• Cereales Special K

• Hombres de estrato 3 que tienen entre 45 y 54 años y que trabajan en Otros Servicios compran:

• Cerveza Amstel Light

• Champú Shampiojos

• Cigarrillos American Gold ó Caribe ó Imperial ó L&M Rojo ó President

• Ponqués de Paquete,Colsubsidio

• Mujeres de estrato 2 que tienen entre 35 y 44 años y que trabajan en Ventas compran:

• Gelatina Arcoiris

• Jabones de Tocador Líquidos Neutrogena

• Jugos Envasados Listos Colibrí

• Perfumes y Colonias Estée Lauder

• Remedios para el Malestar Estomacal Colaxín

• Mujeres de estrato 2 que tienen entre 25 y 34 años y que trabajan en Ventas compran:

• Perfumes y Colonias Estée Lauder

• Productos para Protección Solar Coppertone

• Personas de estrato 3 que tienen entre 35 y 44 años que están desempleadas y cuyo oficio son las Ventas compran:

• Remedios para el Malestar Estomacal Imodium

• Personas de estrato 2 que tienen entre 35 y 44 años y que trabajan en Educacion compran:

• Remedios para la Gripa. Tos. Fiebre y Dolor de Garganta Cheracol

• Mujeres de estrato 4 que tienen entre 25 y 34 años y que trabajan en Salud compran:

• Vodka de Otras marcas

Para un listado completo de estos patrones, por favor remítase al anexo 3 de este

(14)

12 3.2. Grandes Volúmenes de Información y Técnicas de Minería de

Datos

3.2.1. La Minería de Datos

Las técnicas de minería de datos han tomado cada vez más fuerza como un método para

obtener información relevante a partir del manejo de grandes volúmenes de información. Lo

novedoso de esta técnica, formulada por primera vez en 199513, radica en la capacidad de

realizar predicciones y manejar un nivel de inteligencia artificial sobre la información

contenida en esas fuentes mediante el uso de diversas técnicas entre las que se encuentran:

árboles de clasificación, regresión logística, market basket analysis y redes neuronales entre

otras.

La implementación de este tipo de estructuras en las organizaciones es bastante reciente,

pero aún así ha demostrado resultados positivos e interesantes en la obtención utilidades,

tanto en términos financieros como de mercadeo, logística y otras muchas ramas

administrativas, al permitir la exploración de variaciones, comportamientos, patrones, etc.

en las bases de datos que por años se han venido manejando. Un ejemplo claro es el

manejo de proveedores que realiza actualmente WalMart, que basándose en la información

de compras previas, es capaz de predecir el momento justo de la próxima compra,

disminuyendo así los costos por inventarios y los tiempos de entrega de cada uno de los

productos14.

3.2.2. Antecedentes

La primera descripción de minería de datos fue concebida durante el primer taller

“International Workshop on Knowladge Discovery and Data Mining” en 1995. En ese evento se mencionaron las bases teóricas de las técnicas de minería de datos que incorporan

conocimientos de las ciencias aplicadas, la ingeniería y los negocios.

13

Fue durante ese año que se realizó el “First International workshop on Knowledge Discovery and Data Mining”. 14

(15)

13

Sin embargo, en los diez años que lleva acuñado el término dentro del léxico académico no

se ha logrado un consenso acerca de la verdadera definición del mismo, aunque si existe

coincidencia en los aspectos esenciales de la minería de datos. Aún así, el Grupo Gartner15

entrega una definición que es tal vez la más completa y aceptada, que cita:

“La minería de datos es el proceso de descubrir nuevas correlaciones significativas, patrones y comportamientos, filtrando grandes volúmenes de

datos almacenados en repositorios, usando

tecnologías de reconocimiento de patrones así como técnicas estadísticas y matemáticas.”16

Sin embargo existen otras definiciones igualmente interesantes, como la de M.J.A. Barry et

al17:

“La minería de datos es la exploración y análisis, por medio del uso de métodos automáticos y semiautomáticos, de grandes volúmenes de datos con el fin de descubrir reglas y patrones significativos”18

El Instituto Tecnológico de Massachussets (MIT), en sus desarrollos e investigaciones

avanzadas sobre este tema, cataloga las posibles interacciones entre la minería de datos y la

aplicación organizacional como “directivas”, y propone que tiene implicaciones en varios

aspectos de la vida empresarial, que son19:

• Mercadeo: pasa de enfocarse en productos y servicios hacia un enfoque en los clientes.

15

El Grupo Gartner es una corporación dedicada a la investigación y al análisis de la industria de las tecnologías de información a nivel mundial.

16

Traducción propia, tomada de: Data Mining Overview, MIT. 17

Traducción propia, tomada de: Data Mining Techniques For Marketing, Sales and Customer Relationship Management 18

Traducción propia, tomada de: St@tServ Data Mining Page. 19

Fuente: Data Mining Overview, MIT. En este documento se da un vistazo a la forma en la cual se ven beneficiadas las organizaciones al utilizar técnicas de minería de datos.

(16)

14

• Tecnologías de Información: pasa del enfoque en balances a-la-fecha20, hacia un enfoque

de patrones de transacciones, bodegas de datos y tecnologías OLAP.

• Impacto en los costos: mediante la disminución dramática en costos de bodegaje, que se logra con el uso de volúmenes inmensos de datos para predecir comportamientos de

ventas y así el manejo de la logística operacional.

• Captura automática de datos transaccionales: uso de CRM, captura de datos esenciales, localización de clientes, códigos de barras, etc.

• Internet: mediante la interacción personalizada y manejo longitudinal de datos.

Para ese fin, se utiliza el conocimiento adquirido en diferentes disciplinas, entre las que se

cuentan los métodos estadísticos, especialmente modelos descriptivos y de regresión, así

como de clusters; las técnicas en sistemas, especialmente en redes neuronales; las reglas

de asociación en las bases de datos; desarrollos paralelos: métodos por árboles y

herramientas orientadas al manejo de grandes volúmenes de datos dinámicos como OLAP.

Bajo estas condiciones y proposiciones, se muestra a la minería de datos como un conjunto

de herramientas para obtener mayores utilidades en varios ámbitos empresariales mediante

el estudio en detalle de sus bases de datos. Este tipo de investigaciones aún es incipiente

en muchos lugares del mundo, incluyendo a Colombia.

20

Un balance a-la-fecha se refiere al manejo diario de información sin tener en cuenta patrones de registro que sirvan para prever situaciones futuras. Este tipo de balances son los que maneja la mayoría de empresas, incluyendo las Grandes Superficies.

(17)

15 3.2.3. Árboles de Clasificación

En 1986, Leo Breiman et al., con el libro “Classification and regression Trees” crearon las

bases para esta técnica de minería de datos. La idea del modelo es simple: servir como

herramienta para clasificar la información que se tiene de forma que se agrupe en la menor

cantidad de conjuntos o clases posibles que contengan datos del mismo tipo.

Para comprender este modelo primero se debe entender qué es un árbol en términos

matemáticos. Gries y Schneider describen un árbol como “Un grafo conexo libre de giros

que no contiene ciclos”21. Esto significa un grupo de nodos de un grafo, cada uno conectado

al menos con otro (ninguno libre o suelto), y con un único camino posible y existente (sin

ciclos) para llegar de uno nodo específico a otro.

Figura 1: Un grafo de tipo árbol binario

La figura 1 muestra un árbol binario, que corresponde a un grafo en el cual cada nodo tiene

únicamente un nodo padre y éste tiene máximo dos nodos hijos. En este ejemplo se ve

claramente que existe únicamente un camino para llegar de un nodo cualquiera a otro, y

además no hay subárboles o nodos sueltos.

El árbol de clasificación es exactamente un grafo de tipo árbol eneario (cada nodo tiene un

único padre y no tiene límite en la cantidad de hijos) de las características anteriormente

descritas, utilizado para repartir los datos en subgrupos más pequeños.

Se trata de dividir un espacio -con tantas dimensiones como tipos de datos existan en el

modelo- en subespacios que representan agrupaciones más depuradas de los datos, es

21

(18)

16

decir, en las cuales se encuentre una amplia mayoría de un tipo específico de datos, y pocos

o ninguno de otro tipo.

El espacio original será la raíz del árbol, y cada uno de los subespacios resultantes (por tipo)

serán los nodos “hijo” de la raíz. Una vez realizado ese proceso, se debe repetir una y otra

vez recurrentemente hasta tanto se hayan dejado absolutamente todos los datos separados

en nodos o subespacios en los cuales no existan datos de otro tipo.

El problema de dividir los datos de forma homogénea es bastante complejo, razón por la

cual la mayoría de las particiones se realizan de forma intuitiva. Sin embargo, el problema

contrario, reconocer si una partición realizada es “pura” o “buena” es bastante sencillo. De

ahí que en la práctica se evalúa la “pureza” de diferentes particiones que parecen lógicas

intuitivamente, tomando la que los algoritmos sugieren que es la más pura de todas.

La pureza se puede describir, según M.J.A. Berry et al, como una medida que varía entre 0

(cuando no hay dos ítems en la muestra que pertenezcan a la misma clase) y 1 (cuando

todos los ítems de la muestra hacen parte de la misma clase). Existe también la medida

complementaria, Diversidad, que se refiere al extremo contrario (1 – pureza = diversidad).

Existen varios algoritmos que son capaces de evaluar la pureza de una partición, entre las

que se cuentan los algoritmos de GINI o de Diversidad de Población, Entropía o Ganancia de

Información, y la prueba Chi-cuadrado. No es el objetivo de este documento describir a

profundidad todos los algoritmos para dividir agrupaciones de datos22. Sin embargo, para

mayor ilustración, a continuación se expone el algoritmo GINI.

El algoritmo, nombrado tras su creador, Corrado Gini, fue ideado para medir la distribución

de la riqueza existente a principios del siglo XX. En su documento “Variabilità e mutabilità”

de 1912, Gini explicó que la “inequidad” de la riqueza se puede describir en un número

matemático. Este número corresponde al área existente entre la distribución perfecta de

riquezas –en la cual cada individuo tiene exactamente la misma riqueza- y la Curva de

Lorenz, que describe la distribución de riqueza desde un punto de vista económico23_.

22

Para una descripción detallada de dichas técnicas, consulte: M.J.A Berry et al, p176. 23

Para mayor información sobre el coeficiente Gini y la Curva de Lorenz, remítase a: Paper A 04.01: Measuring Inequality: The Origins of the Lorenz Curve and the Gini Coefficient, M. Schneider, Escuela de Negocios, Universidad La Trobe, Australia.

(19)

17

La gran ventaja de este número es que permite disponer en forma de coeficiente la

distribución de la riqueza de una región o un país. Es así que en la actualidad una medida

muy aceptada para comparar el bienestar social de los países es el coeficiente Gini.

La aplicabilidad que tiene el coeficiente Gini en la minería de datos radica en la capacidad de

describir de una forma sencilla la distribución de “riquezas” o en este caso datos en una

población de los mismos. Este cálculo se puede realizar de la siguiente forma24:

Sea U el universo de todos los datos que van a ser evaluados, S el conjunto de subespacios

en que se dividirá el universo U y Sj un subespacio de ese conjunto S con las mismas

características de U. Sea Di el conjunto de subespacios de un solo tipo de datos que se

encuentran en el espacio Sj y Dij un conjunto que contiene un único tipo de datos con las

propiedades25:

∑

= =

=

i C i ij j K j j ij ij i i j j

N

y

N

D

N

D

C

S

N

S

K

U

N

1 1

La pureza de un nodo Sj está dada por:

( )

∑

( )

∑

[

]

= =

=













=

j j

N i j ij j N i j ij

j

ó

Pureza

S

P

D

S

N

S

Pureza

1 2 1 2

)

|

(

Y la pureza de la partición S es:

( )

∑

=

K j j j

Total

Pureza

S

N

Pureza

1 24

La descripción matemática y de conjuntos expuesta en este documento se trata de una adaptación propia basada en los ejemplos propuestos por M.J.A. Berry et al, p81.

25

Matemáticamente los paréntesis planos determinan la cardinalidad de un conjunto. En este caso, |U| determina la cantidad de elementos presentes en el universo de los datos.

(20)

18

Una vez se reconoce que una partición es pura, se puede proceder a realizar otra partición,

esta vez sobre cada uno de los subespacios resultantes hasta tanto se haya dividido el

universo de los datos en subespacios que contengan únicamente datos de un mismo tipo en

cada hoja del árbol.

Hecho ese procedimiento, se puede notar que el resultado es un árbol en el cual cada nodo

es un subespacio del espacio inmediatamente superior.

Esa clasificación preliminar permite reconocer algunas características, como la dispersión

existente entre los datos, al hacerse necesarios más o menos niveles en el árbol para

distribuirlos totalmente. La noción detrás es que entre menos niveles sean necesarios,

menos dispersos están los datos, y viceversa.

Sin embargo, una vez se han clasificado todos los datos, especialmente cuando se trata de

grandes volúmenes, las clasificaciones resultantes no entregan información evidente, y en la

mayoría de los casos contienen más órdenes de los necesarios para obtener datos

relevantes. Es necesario un paso más para lograr evidenciar las relaciones existentes;

“podar” el árbol de forma que sean visibles las correlaciones.

Para esto se realiza un procedimiento estadístico de mínimo error. Se identifica la cantidad

mínima de niveles tras la cual el error estándar se mantiene relativamente estable. Se ha

comprobado empíricamente que en la mayoría de los casos estudiados, la distribución del

error adquiere una forma que tiende a ser asintótica horizontalmente en los árboles de

clasificación, y que por lo tanto después de cierta cantidad de niveles, el error no decrece de

forma significativa. Este punto se conoce como “mejor poda”. Si se trata de datos muy

diversos, cuya dispersión es tal que el error nunca decrece, el procedimiento concluirá que

se debe tomar la totalidad del árbol para ser estudiado.

Sin embargo esta “mejor poda” puede o no coincidir con otro concepto, la “poda de mínimo

error”, en la cual se evidencia el mínimo error de clasificación, con la menor cantidad de

niveles posibles. Depende entonces del algoritmo utilizado, ya sea CART, C5 u otro tipo, si

se debe utilizar uno u otro concepto a la hora de realizar este paso26.

26

(21)

19

El algoritmo más conocido y usado para podar árboles de clasificación es el CART o

Algoritmo de Árboles de Clasificación y Regresión, por sus siglas en inglés, que consiste en

encontrar la Tasa de Error Ajustado, que estará dado en términos de hojas. Ese error

tenderá a decrecer en la mayoría de los casos cuando se aumentan los niveles, y por lo

tanto se deben tomar tantos niveles como sea el punto en el cual ese Error Ajustado se

estabiliza y ya no decrece significativamente.

La tasa de error proviene de la forma en que se realiza la prueba. Los paquetes de software

toman dos grupos de datos, que se llamarán “datos de entrenamiento” y “datos de

validación”. Ambos grupos serán sometidos al mismo procedimiento, con la diferencia que

se hará primero uso de los datos de entrenamiento, y luego, reconociendo ya las reglas

existentes en el modelo obtenidas a partir de ese procedimiento, se utilizan los datos de

validación, sobre los cuales se deben obtener las conclusiones.

Estos dos tipos de datos, que deben ser disyuntos, se comportarán como dos curvas, siendo

la obtenida a partir de los datos de validación la que dirá, en su punto mínimo o el lugar

donde comienza a ser asintótica, cual es el nivel de profundidad al que debe hacerse la

poda.

Existe un tercer grupo, llamado “datos de prueba”, que por la manera en que se trabaja

estadísticamente, se utilizan al final para comprobar que el comportamiento de los datos no

se debe a un evento estadísticamente improbable que invalidaría las conclusiones sobre los

resultados.

La ecuación de error ajustado en CART consiste en la siguiente fórmula:

)

(

_

)

(

)

(

t

E

t

cuenta

de

hojas

t

EA

=

+

α

Donde EA(t) es el error ajustado que se está buscando, E(t) es la tasa de error,

α

es un

factor de ajuste que se va aumentando con respecto a la cantidad de subárboles que se han

creado, y cuenta_de_hojas(t) es la cantidad de hojas que existen en el modelo en un punto t

(22)

20

Abstrayendo el modelo al proyecto que compete a esta investigación, el universo puede ser

el comportamiento de los clientes frente a un grupo definido de productos, siendo los datos

los diversos productos. Existirán productos (ramificaciones del árbol) que serán muy poco

dispersos (muy relacionados) y por lo tanto no tendrán muchos niveles. Así mismo habrá

otros que estarán bastante dispersos y necesitarán por lo tanto de varios niveles para ser

clasificados.

Una vez realizado el procedimiento de “poda”, se deben obtener grupos específicos, que

pueden ser asimilados como “clases de clientes”, o tipos de clientes que se comportan de

forma similar. Si se cuenta con suficiente información, se puede inclusive identificar alguna

característica que defina con mayor frecuencia a todos los clientes de esa clase, formando

así una clasificación bajo un nombre específico, por ejemplo clientes con edades entre X y Y,

que corresponden al estrato N.

El resultado será que se puede afirmar que todos los clientes que se encuentren entre el

rango especificado, y por lo tanto pertenecen a una clasificación específica, tienen el

(23)

21 3.2.4. Market Basket Analysis (Análisis de la Canasta de Mercado)

El término ACM fue acuñado durante la segunda mitad de la década de 198027_{, como una}

prometedora forma de buscar correlaciones existentes en las ya en ese entonces inmensas

bases de datos, que habían recolectado la información de sus ventas y sus clientes durante

más de un decenio.

En ese momento no existía suficiente capacidad tecnológica en las computadoras accesibles

a las empresas para procesar ese volumen tan alto de datos, y por lo tanto muchas de ellas

decidieron no ingresar en el mundo de la minería de datos hasta casi diez años después.

La lógica detrás del ACM es básica y simple: reconocer si el comprador que tomó un

producto específico, por ejemplo leche, tiene una probabilidad importante de llevar otro

producto, por ejemplo pan, que se convierte en un patrón de comportamiento común.

Esta lógica tiene algunas particularidades. Entre otras, no cumple la ley de simetría, es

decir, el hecho de llevar leche si puede significar llevar pan, pero no necesariamente la

existencia del pan en el carro de mercado implica que la leche estará allí también. Existe

además la posibilidad de que aquel que está comprando pan y leche también lleve huevos,

pero si solo lleva pan o solo lleva leche, no necesariamente va a llevar los huevos. Esto

significa que se trata de encontrar reglas de asociación entre productos diversos, algunas

veces uno a uno, en otras ocasiones uno a varios, varios a uno o varios a varios.

Esas reglas de asociación son las que permiten manejar un concepto matemático y

probabilístico detrás de este tipo de análisis. Para ello se utilizan tres ecuaciones diferentes,

a saber28:

Soporte, o la posibilidad real que haya dos o más productos (Xi) en una canasta de mercado.

Se define como:

)

,...,

,

(

X

₁

X

₂

X

_n

P

S

=

27

Market-Basket Mystery. Retail Technology Quarterly. May 2005. 28

M.J.A. Berry et al, p309 describe la estructura matemática que da soporte a las reglas de asociación, base del Análisis de la Canasta de Mercado.

(24)

22

Confianza, o la probabilidad de que estén dos o más productos en la canasta (Xi,…, Xj),

dividida en la probabilidad de que una parte de éstos (Yi,…, Yj) esté en la canasta. Se define

como:

}

,...,

,

{

}

,...,

,

{

,

)

,...,

,

(

)

,...,

,

(

2 1 2 1 2 1 2 1 n k k

n

_Y

_X

Y

P

X

P

C

=

∈

Y Mejora (o interés, o lift), que es la cantidad de veces más probable de encontrar un grupo

de productos (Yi,…, Yj) dado que otro grupo específico (Xi,…, Xj) está en la canasta. Se

define como:

)

,...,

,

(

)

,...,

,

|

,...,

,

(

2 1 2 1 2 1 n n n

Y

P

X

Y

P

M

=

Es así que, utilizando estas ecuaciones, se puede reconocer si un producto o conjunto de

productos existentes en la canasta de mercado hacen más probable la existencia de otro u

otros productos en la misma.

Por su calidad, facilidad de uso e interpretación, en la actualidad este modelo es uno de los

más difundidos entre los grandes almacenes minoristas o “retailers”29, ya que describe de

forma muy sencilla los patrones de consumo de los clientes, basándose en relaciones muy

claras y entendibles.

29

Wal-Mart ha usado este método para obtener mayores utilidades con la distribución de los productos. Así mismo aumenta la calidad del servicio y disminuye los costos de proveedores. Remítase también a: Enhanced Decision Making using Data Mining.

(25)

23 3.2.5. Regresión Logística

Regresión logística es un modelo estadístico que se caracteriza por tener variables binarias

(1 ó 0, positivas o negativas), y cuya finalidad es describir de forma apropiada la

distribución de esos datos.

Sus orígenes se remontan al siglo XIX, cuando por primera vez se buscó responder la

incógnita de cómo crece la población humana en el mundo. La respuesta fue más

interesante de lo que se esperaba, ya que los matemáticos de entonces encontraron que con

el paso del tiempo la población iba creciendo en una progresión aritmética del orden de Xn,

donde n es el número de generaciones y X es el número de neonatos en el mundo30.

Esta situación fue particularmente estudiada por el astrónomo Alphonse Quetelet

(1795-1874), quien se planteó la imposibilidad de sustentar esa fórmula tras el paso de algunas

pocas generaciones, ya que es asintótica verticalmente y por lo tanto infinita en cuestión de

unos pocos cientos de años (cada generación tiene en promedio 25 años).

Él y su pupilo, Pierre-François Verhulst (1804-1849), mostraron que existe una función a la

cual se asemeja más el crecimiento, y que ésta es de forma sigmoide (empinada en principio

y llana pasado un factor de inflexión), con lo cual, aplicando la ya entonces conocida

ecuación de regresión lineal, mostraron que el comportamiento poblacional es realmente

dependiente de factores aparte de los nacimientos, y por lo tanto con un incremento que en

principio si parece una función exponencial simple, pero que pasados algunos años, esa

población tiene que estabilizarse porque existen límites para el crecimiento.

Verhulst publicó sus hallazgos en un pequeño ensayo de cuatro páginas titulado

“Correspondance Mathématique et Physique”, en el cual, mostró el crecimiento de la población en función de otras variables, bajo la fórmula:

t t

e

t

W

_α _β

β α

+ +

+

Ω

=

1 )

(

30

The origins of Logistic Regression, J.S. Cramer. Muestra cómo el primer caso que se intentó suplir con la regresión logística fue el crecimiento de la población frente a la creencia que el mismo es exponencial.

(26)

24

Donde W es la población total, t es el tiempo, Ω es un límite poblacional por país,

α

es la

constante de regresión y β es el parámetro de crecimiento en el tiempo.

En posteriores publicaciones, el mismo Verhulst explicó que esta ecuación se ajusta bastante

al crecimiento poblacional en países como Rusia, Bélgica y Francia entre otros. También le

dio un nombre a la curva sigmoide resultante, llamándola “curva logística”, en

contraposición a la curva exponencial, o como se le conocía entonces: “curva logarítmica”.

Doscientos años después, la curva logística sigue siendo utilizada para describir poblaciones

y mercados, así como para mostrar el crecimiento que tendrá la introducción de nuevos

métodos o catalíticos en reacciones químicas y procesos industriales.

Sin embargo no fue sino hasta la segunda mitad del siglo XX, cuando ya se intentaban

sustentar y manejar los modelos desde el punto de vista computacional, que se asimiló la

reconstrucción de la ecuación de Verhulst y se creó la ecuación logit (despejada por

Berkerson), basada en una forma de la ecuación normal llamada probit, que era usada para

definir modelos logarítmicos con distribuciones normales, especialmente en casos de química

y farmacología. El logit, que será explicado más adelante, fue la forma de hacer que la

regresión logística se asemejara a una regresión lineal y por lo tanto mostrara un

comportamiento computable con las herramientas del momento.31

En general la regresión es una herramienta matemática de ajustar datos hacia una figura

específica como una línea, una curva, o en casos mucho más complejos, un plano o un

espacio, de tal manera que exista la menor distancia posible de todos los datos de la

muestra frente a la figura que se está estudiando.

La más común de las regresiones es la lineal, en la cual se busca acercar los datos hacia un

polinomio de grado 1 o lineal, de tal manera que todos los datos se aproximen lo más

posible a esa recta32. La forma más usual de representar esta regresión es el modelo:

n n

X

Y

=

β

₀

+

₁

β

₁

+

₂

β

₂

+

...

+

β

31

The origins of Logistic Regression, J.S. Cramer. Habla sobre los orígenes de la función logística desde el siglo XIX hasta finales del siglo XX.

32

En Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p471-623, se puede encontrar detalladamente el modelo de regresión lineal.

(27)

25

Donde β1 a βn son los coeficientes de la regresión. Este modelo tiene como característica

importante que cada uno de los β representa el ajuste hacia la recta Y=f(X1,X2,…,Xn).

Sin embargo, como la mayoría de los modelos estadísticos, la recta que representa

realmente los datos es desconocida, y los ajustes que se realizan se hacen por estimación de

los coeficientes. Para obtenerlos existen tres métodos con amplia difusión:

El primero es el de momentos, en el cual se toma la función de probabilidad y se deriva

frente a la función de momentos. Sin embargo, este método es poco útil en la regresión, ya

que la ecuación no es precisamente una función de densidad de probabilidad, y la aplicación

de momentos sobre ecuaciones con múltiples factores resultaría en el mejor de los casos

impráctica.

El segundo y más comúnmente usado en las regresiones es el de mínimos cuadrados, en el

cual se toma cada dato y se compara con la recta, tomando los cuadrados de las distancias

“paralelas a Y” entre los puntos en que se encuentran los datos y sus correspondientes

puntos estimados sobre la recta. De esa forma, se obtiene la siguiente ecuación:

Y

X

T

)

1 T

(

−

→

=

β

)

Donde X es la matriz de los Xnk observaciones (variables independientes) que se realizaron,

k son la cantidad de clases de datos y n es el número de datos por clase que se tomaron.

Así mismo β es el elemento vectorial de cada uno de los βk estimadores presentes y Y es el

vector de las Yn variables dependientes.

El tercer método, más usado para obtener estimadores de parámetros externos a la

regresión, es el de máxima verosimilitud, proceso en el cual se logra encontrar

matemáticamente un estimador que cumple con ser viable frente al parámetro real

mediante la maximización de la función de verosimilitud, o en palabras más claras,

encontrando el estimador que hace más factible que la función de verosimilitud se parezca al

parámetro que se desea encontrar. La función es la siguiente:

∏

=

n

i

X

f

L

1

)

,

(

)

(28)

26

Para encontrar el máximo de una función, matemáticamente se puede derivar ésta e

igualarla a cero (punto en el cual la pendiente es cero, por lo tanto es máxima o mínima).

El estimador de máxima verosimilitud por lo tanto será:

0 )

(

ln

=

β

d

L

d

, despejando β.

La regresión logística no es diferente. Se trata de acercar los datos existentes hacia una

curva logarítmica, que para el efecto de la minería de datos se ajusta más a modelos de

grandes volúmenes, ya que suaviza los casos excepcionales y extremos (por utilizar la

función logarítmica) y clasifica por medio de probabilidades las clases que se pueden

encontrar en la base de datos.

Otra característica particular de este modelo es el uso de una variable éxito-fracaso o binaria

para el manejo de clasificaciones, de tal manera que se puede decir, en palabras, que esta

aproximación permite “reconocer que tan probable es que, en el conjunto de los datos, el

caso Yi sea cierto”.

Finalmente, lo que logra este formato es comprobar matemática y estadísticamente que una

clasificación dada, o una agrupación específica de datos (patrón) es probabilísticamente

viable, al definir numéricamente con qué probabilidad una agrupación se puede dar -frente a

la posibilidad de que no sea así-, o un patrón se puede presentar -frente a la opción que no

lo haga-. La fórmula utilizada para esta expresión es33:

n n n n

X X

X

X X

X

i

e

P

_β _β _β _β

β β

+ + + +

+

=

..._...

2 2 1 1 0

1

Esta ecuación se puede reescribir en una de regresión lineal múltiple, de la siguiente forma:

33

Esta fórmula corresponde a la versión actual de la ecuación original de Verhulst, y que como se verá más adelante, corresponde claramente a una ecuación logística. Para mayor ilustración vea: The origins of Logistic Regression, J.S. Cramer.

(29)

27

n n i i X X X i i X X X i i X X X i X X X X X X i

X

P

e

P

e

P

e

P

e

P

n n n n n n n n n n

β

β β β β β β β β β β β β β β β β β β β β

+

=













−

=

−

=

−

=

+

=

+

=

+ + + + + + + + + + + + + + + + + + + +

...

1 ln

1

2 2 1 1 0 ... ... ... ... ... 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0 2 2 1 1 0

Donde la función resultante de la izquierda se conoce como “logit”, que es el logaritmo de la

razón de posibilidades, más conocida como odd ratio, consistente en la división de la

probabilidad de éxito sobre la de fracaso, lo cual permite estimar que tan “positivo” es un

evento específico de los datos estudiados. Un patrón de comportamiento tomado desde este

punto de vista estaría dado por una cantidad alta de probabilidades de éxito frente a una

baja de posibilidades de fracaso (razón mayor que uno), que demostraría la existencia de

una clase Pi con alta probabilidad de ocurrencia.

Esta expresión tiene dos bondades: la primera es la capacidad de exponerla como una

regresión lineal múltiple, que permite hacer el estudio de correlaciones, pruebas de bondad

de ajuste y todos aquellos exámenes que se requieran sobre esta ecuación con las

herramientas más sencillas, conocidas y difundidas. La segunda es la explicación de los

datos, ya que, tomando la ecuación

n n X X X i i

_e

P

₌

β + β + β + + β

−

... 2 2 1 1 0

1

Ésta también se puede expresar, por las propiedades de los exponenciales, como:

n X n X X

e

P

i

i β

_*

β

_*

β

_*

_...

_*

β

1

2 2 1 1 0

=

−

Donde cada uno de los factores exponenciales expresa la representación de los β existentes,

y así mismo su impacto en la regresión. Esto significa que además, un β que esté cerca de

un valor cero, mostrará que la razón de posibilidades depende en menor cuantía de ese

(30)

28

Para el caso específico de las Grandes Superficies, cada uno de los Xi corresponden a un

producto y los β hacen referencia al impacto que tiene ese producto sobre un patrón

específico de comportamiento. Ese patrón debe ser de la forma éxito-fracaso, por ejemplo

estudiar si aquellas personas que consumen cerveza, además incluyen en su compra

gaseosa, pañales y cigarrillos. El éxito radicará en reconocer si realmente es probable que

los consumidores de cerveza compren los demás productos.

La ventaja de utilizar este modelo consiste en que si ese hecho va relacionado con los

pañales y los cigarrillos, pero no con la gaseosa, la regresión mostrará que no se puede

rechazar la hipótesis de que el coeficiente β asociado a la gaseosa es cero, y por lo tanto se

podrá asegurar estadísticamente que la compra de cerveza no tiene relación con la compra

de la gaseosa. Finalmente, y ya que se trata de un modelo numérico, el β asociado también

mostrará el factor (para el ejemplo la cantidad de productos) que identifica la compra y así

reconocerá que el comprador de cerveza, por ejemplo, gusta de comprar más de un

cigarrillo por cada una que decida llevar.

De esa manera, se puede indicar que si bien clasificar no es el fuerte de esta herramienta de

minería de datos, generar y comprobar patrones precisos de comportamiento a través de

regresiones es muy común y suele ser bastante acertado. Además, tras utilizar las

clasificaciones, que pueden ser o no encontradas usando este modelo, se puede estudiar su

validez utilizando herramientas estadísticas de este tipo.

Las dificultades más importantes del modelo radican en la complejidad de interpretación de

los resultados, que como tal muestran muy poco para aquellas personas que no están

entrenadas para distinguirlos. Se trata de experimentos estadísticos que generan

ecuaciones y resultados diversos, y con al menos tres modelos de estudio y corrección sobre

los mismos (prueba de contingencia34_{, prueba de ANOVA}35_{y prueba de bondad de ajuste}36₎

esta situación hace que, si bien las conclusiones en todos los casos usualmente son bastante

cercanas, existe la posibilidad de llegar a diferentes soluciones por diferentes métodos.

34

La prueba de contingencia consiste en comparar datos tabulares muestrales con valores esperados para los mismos, de manera que se pueda concluir si corresponden a las distribuciones en principio planteadas. Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p. 456.

35

La prueba ANOVA consiste en analizar la varianza que tienen los datos muestrales, de tal manera que se pueda contemplar si la prueba corresponde o no a las hipótesis planteadas. Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. 493. 36

La prueba de bondad de ajuste consiste en definir que tanto se acerca la distribución de los datos a una distribución conocida, ya sea ésta normal, ji-cuadrada, student o poisson por nombrar solo algunas. Para Probabilidad y Estadística aplicadas a la Ingeniería, Montgomery et al. p.444.

(31)

29 3.2.6. Redes Neuronales

Una red neuronal, en su forma más básica, es un modelo que busca simular la forma en la

cual funcionan las neuronas cerebrales. La primera aproximación a este paradigma apareció

a finales del siglo XIX, como el modelo matemático básico que describe la forma en la cual

se comporta, en teoría, un cerebro biológico. Sin embargo, no fue sino hasta los años 1950

que Frederick von Hayek describió ese comportamiento en su escrito “The Sensory Order”

en términos de neuronas independientes y simples que se organizan espontáneamente.

Hayek llegó a esta conclusión conexionista prácticamente al tiempo que Donald Hebb, quien

casi diez años antes había descrito el mecanismo de “plasticidad” de las neuronas, que

consiste en una forma de aprendizaje sin supervisión, conocida como el Aprendizaje

Hebbiano37.

Con base en ese conocimiento, el Laboratorio Aeronáutico de Cornell en Buffalo, N.Y.,

desarrolló el Perceptron, un “clasificador lineal” basado en una forma muy simple de red

neuronal de una sola vía. De esa manera, ajustando pesos, se logra hacer que el modelo se

haga más preciso cada vez. La ecuación del Perceptron es la siguiente:

b

x

w

x

f

(

)

=

(

r

• )

+

Donde w es un vector de pesos, b es un número y x es el dato o datos estudiados. El

producto punto entre el vector w y la variable x permite que la función tenga un signo, de

tal manera que se puede clasificar a x como una instancia positiva o negativa.

Así mismo, la ecuación Perceptron tiene un algoritmo de aprendizaje, que compara uno a

uno el valor obtenido con la ecuación y el valor real, de la siguiente forma:

(

) (

)

{

x

d

x

n

d

n

}

Dn

=

₁

,

₁

,...,

,

Donde n es la cantidad de ejemplos, xi es el dato ingresado y di es el valor real, o dato

objetivo. Sin embargo, esta segunda ecuación no describe la forma en la cual se encuentra

el error, que es la siguiente:

(

d

i

−

y

i

)

x

i

η

37

La referencia a esta breve historia de las redes neuronales se puede encontrar en: M.A. Arbib The Handbook of Brain Theory and Neural Networks. Y M.J.A. Berry et al, Data Mining Techniques For Marketing, Sales and Customer Relationship Management.

(32)

30

Siendo yi el resultado obtenido con la ecuación de Perceptron y

η

la tasa de aprendizaje que

se desea.

En ese momento histórico la tecnología se hizo insuficiente para manejar la cantidad de

información que requería procesar este algoritmo, de manera que las redes neuronales

entraron en un período de estancamiento. Solo hasta la primera parte de la década de 1980

se retomaría de lleno este modelo.

Entre tanto, en 1975, aparece el modelo teórico del Cognitron, un modelo neuronal un poco

más complejo, en el cual el adelanto más significativo era la existencia de más de una capa

de neuronas, sin embargo aún con la misma limitante del aprendizaje en una sola vía. Esa

limitante hacía impráctico el uso de las redes neuronales, ya que cada vez que el algoritmo

tanto Perceptron como Cognitron termina una función, debe “aprender” calculando en el

mismo sentido la ecuación mediante el ajuste de pesos y errores.

A principios de los años ochenta, John Hopfield38_{, del Instituto Tecnológico de California,}

creó la ecuación de “Propagación de Errores hacia atrás” o Backpropagation. Este avance dio fuerza a una rama de la tecnología informática: la inteligencia artificial, ya que permite

realizar el proceso de estimación y luego, de forma inmediata, trascender el error hacia

atrás, de tal manera que cada nodo obtiene información acerca del mismo para ser

distribuidos en el sistema de pesos de forma que en la siguiente oportunidad el resultado

sea más exacto. En términos coloquiales, el algoritmo de Backpropagation permite a la red aprender de sus errores.

Actualmente se utilizan diversos métodos de ejecución y complejidad con las redes

neuronales, dependiendo de la necesidad que se tenga en la estimación. Aún así, el modelo

básico sigue siendo el mismo: Una o más entradas de datos que alimentan la red, un

procesamiento interno que puede ser directo o con algunos niveles ocultos de neuronas, y

una o más salidas que entregan el resultado de la operación. Finalmente, se retroalimenta

el modelo con los resultados reales mediante el uso del algoritmo de Backpropagation y se ajusta el peso de cada neurona de forma tal que entregue un resultado más ajustado cada

vez. Gráficamente una red neuronal se puede ver de la siguiente forma:

38

Hopfield, en su artículo Neural network and physical systems with emergent collective computational abilities, describió la forma en la cual se puede generar la propagación hacia atrás en las redes neuronales.