• No se han encontrado resultados

Modelo de Hábitos de Compra de Clientes en el Sector Mayorista Deportivo

N/A
N/A
Protected

Academic year: 2021

Share "Modelo de Hábitos de Compra de Clientes en el Sector Mayorista Deportivo"

Copied!
37
0
0

Texto completo

(1)
(2)

Modelo de Hábitos de Compra

de Clientes en el Sector

Mayorista Deportivo

Miguel Ángel García Sánchez

Científico de Datos

https://miguel-angel-garcia.com

(3)
(4)

Introducción

PYMES

No se benefician de las ventajas de la IA

Ciencia de Datos puede ayudar en la toma de

decisiones

Ciencia de Datos y Aprendizaje

Automático ≠Big Data

(5)

Introducción

PYME gallega

Dedicada a la distribución mayorista de

material deportivo

Gestión centralizada en un ERP

SAP Business One hasta agosto de 2017

Odoo a partir de agosto de 2017

Clientes nacionales e internacionales

(6)
(7)

El Problema

Necesidad de conocer cuándo los clientes

cambian sus hábitos de compra

Objetivo empresarial

Realizar acciones comerciales para evitar la

pérdida de clientes

Mantener clientes fieles en cada línea de

(8)

El Problema

Retos

Combinaciones Cliente / Producto

4.062 clientes activos

24.565 productos

¡Casi 100 millones de combinaciones!

Clasificación de Productos

Sólo criterios internos

No existen grupos por tipología o características

Productos con tallas / colores

Creados agrupados y sin agrupar

Productos de temporada

(9)

El Problema

Ciclo metodológico tradicional

Ej: CRISP-DM

Preparación

de Datos

Modelado

Evaluación

Despliegue

Preparación

de Datos

Modelado

Despliegue y

Evaluación

(10)
(11)

Los Datos

Orígenes de Datos

SQL Server

Tablas de SAP Business One

Pedidos de clientes

Cabeceras

Líneas

Maestro de artículos

Maestro de marcas

Tablas y campos utilizados

(12)

Los Datos

Problemas iniciales

Diferentes códigos

para el mismo

producto en distintas

tallas

0021730 - ALETA CORTA TALLA 33/34

0021731 - ALETA CORTA TALLA 35/36

0021732 - ALETA CORTA TALLA 37/38

0021733 - ALETA CORTA TALLA 39/40

0021734 - ALETA CORTA TALLA 41/42

0021735 - ALETA CORTA TALLA 43/44

0021736 - ALETA CORTA TALLA 45/46

Descripciones

Productos con

colores o medidas

irrelevantes

BOLSA ZAPATILLERO MEDIANA

MINITEAM COLOR MARINO/REAL

VIVO BLANCO SOFTEE

Textos en

mayúsculas

Faltas de ortografía

BALON FUTBOL TEJIDO GIGANTE 40

CM-DESCATALOGADOOOO-

JUEGO POSTES VOLEÍBOL FIJOS DE

ALUMINIO SECCION CUADRADA 80 X

80MM

(13)
(14)

Transformación de Datos

Objetivo

Agrupar productos similares

Herramientas

Limpieza

Eliminar términos innecesarios en las descripciones

Eliminar las marcas de la descripción (si es posible)

Técnicas de Procesamiento de Lenguaje Natural

(PLN)

Corrección ortográfica en base a corpus (CREA)

Descartado (baja calidad de los servicios de la RAE)

Análisis léxico

(15)

Transformación de Datos

LinguaKit

Herramienta utilizada

como lematizador

Modelo de Espacio

Vectorial (MEV)

Similar al utilizado en

clasificación de

documentos

Asociación entre

términos

Futbol

Sala

Balon

(16)

Transformación de Datos

Mitad de los productos

Agrupados en función de su primera palabra

La otra mitad

Usando clustering

(17)

Transformación de Datos

Primeras palabras más frecuentes

(18)
(19)

Análisis Exploratorio

Evolución del volumen de ventas

Unidades por cliente (top 5) y mes

(20)

Análisis Exploratorio

Evolución del volumen de ventas

Combinación de 10 clientes y 10 grupos de productos

100 modelos

(21)

Análisis Exploratorio

Evolución del volumen de ventas

(22)
(23)

Modelo de Regresión Lineal

de Mínimos Cuadrados

(24)

Modelo de Regresión Lineal

de Mínimos Cuadrados

R

2

en cada modelo

Máximo valor 0,264

C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635

agu-ban-par

0,122

0,059

0,007

0,038

0,058

0,131

0,102

0,074

0,005

NaN

balon

0,161

0,072

0,001

NaN

0,023

0,000

0,103

0,037

0,004

0,029

camiseta

0,067

0,000

0,001

0,019

0,001

NaN

0,006

0,042

0,007

NaN

fut-neg-uni

0,100

0,056

0,001

NaN

0,091

0,003

0,064

0,000

0,006

0,041

gorro

0,002

0,074

0,021

0,064

0,010

0,005

0,012

0,067

0,053

NaN

pad-pal-neg

0,058

0,031

0,058

NaN

0,019

0,019

0,001

0,004

0,015

NaN

pelota

0,142

0,118

0,090

NaN

0,014

0,264

0,147

0,001

0,010

0,030

pos-aro-tab

0,185

0,047

0,015

0,012

0,098

0,248

0,122

0,078

0,001

0,084

sudadera

0,037

NaN

0,012

0,029

0,008

NaN

NaN

0,104

0,048

NaN

zapatilla

0,046

NaN

0,012

NaN

0,072

NaN

0,014

0,016

0,006

NaN

(25)

Modelo de Regresión Lineal

de Mínimos Cuadrados

(26)
(27)

Modelo de Clasificación

Premisa

Evitar la variabilidad en los datos

Mantener la sencillez del modelo global

Fácil de explicar

Camino tomado

Discretización de la variable a predecir

Usando intervalos específicos para cada modelo

Método de clustering para el ajuste de intervalos

Algoritmos de la familia de árboles de decisión

OneR

C4.5

(28)

Modelo de Clasificación

OneR

V

ALORES

DE

F

1

(E

NTRENAMIENTO

)

V

ALORES

DE

F

1

(T

EST

)

C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635

agu-ban-par

0,516

0,770

0,928

0,767

0,972

0,761

0,717

0,958

0,986

-balon

0,786

0,852

0,885

-

0,958

0,928

0,654

0,806

0,972

0,986

camiseta

0,928

0,972

0,972

0,972

0,958

-

0,896

0,972

0,986

-fut-neg-uni

0,599

0,825

0,958

-

0,928

0,746

0,862

0,896

0,986

0,694

gorro

0,566

0,616

0,787

0,806

0,461

0,844

0,879

0,912

0,986

-pad-pal-neg

0,690

0,943

0,943

-

0,748

0,806

0,972

0,972

0,986

-pelota

0,714

0,654

0,943

-

0,825

0,768

0,832

0,879

0,986

0,986

pos-aro-tab

0,626

0,745

0,801

0,928

0,943

0,628

0,752

0,943

0,972

0,943

sudadera

0,986

-

0,958

0,972

0,972

-

-

0,958

-

-zapatilla

0,958

-

0,928

-

0,747

-

0,972

0,730

0,986

-C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635 agu-ban-par 0,583 - 0,957 0,800 0,857 0,250 0,745 0,957 0,857 -balon 0,542 0,800 0,952 - 0,957 - 0,706 0,909 0,857 0,957 camiseta 0,909 - 0,957 0,909 0,800 - 0,957 0,909 0,857 -fut-neg-uni 0,824 0,957 - - - 0,909 0,800 - 0,957 0,671 gorro 0,889 0,706 0,800 0,857 0,542 0,857 0,667 - 0,857 -pad-pal-neg 0,578 - 0,957 - 1,000 0,909 - 0,957 0,857 -pelota 0,842 0,723 0,957 - 0,857 0,670 0,800 0,957 0,909 -pos-aro-tab 0,667 0,400 0,222 0,800 0,800 0,757 0,333 0,957 0,588 0,588 sudadera 0,957 - 0,957 - 0,909 - - 0,800 - -zapatilla - - - - 0,857 - - 0,737 0,588

(29)

-Modelo de Clasificación

C4.5

V

ALORES

DE

F

1

(E

NTRENAMIENTO

)

V

ALORES

DE

F

1

(T

EST

)

C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635 agu-ban-par 0,737 - 0,957 0,800 0,857 0,250 0,612 0,957 0,857 -balon 0,583 0,533 0,952 - 0,957 - 0,661 0,909 0,857 0,957 camiseta 0,909 - 0,957 0,909 0,800 - 0,957 0,909 0,857 -fut-neg-uni 0,857 0,957 - - - 0,900 0,800 - 0,957 0,800 gorro 0,286 0,909 0,706 0,857 0,286 0,857 0,667 - 0,857 -pad-pal-neg 0,589 - 0,957 - 1,000 0,800 - 0,957 0,857 -pelota 0,900 0,847 0,957 - 0,857 0,690 0,800 0,957 0,909 -pos-aro-tab 0,727 0,500 0,222 0,800 0,800 0,683 0,333 0,957 0,588 0,588 sudadera 0,957 - 0,957 - 0,909 - - 0,800 - -zapatilla - - - - 0,909 - - 0,957 0,588 -C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635 agu-ban-par 0,655 0,770 0,928 0,767 0,972 0,761 0,739 0,958 0,986 -balon 0,786 0,667 0,885 - 0,958 0,928 0,586 0,806 0,972 0,986 camiseta 0,928 0,972 0,972 0,972 0,958 - 0,896 0,972 0,986 -fut-neg-uni 0,655 0,825 0,958 - 0,928 0,637 0,862 0,896 0,986 0,879 gorro 0,679 0,702 0,639 0,806 0,549 0,844 0,879 0,912 0,986 -pad-pal-neg 0,696 0,943 0,943 - 0,748 0,718 0,972 0,972 0,986 -pelota 0,788 0,793 0,943 - 0,825 0,829 0,832 0,879 0,986 0,986 pos-aro-tab 0,749 0,833 0,801 0,928 0,943 0,699 0,752 0,943 0,972 0,943 sudadera 0,986 - 0,958 0,972 0,972 - - 0,958 - -zapatilla 0,958 - 0,928 - 0,912 - 0,972 0,844 0,986

(30)

-Modelo de Clasificación

Random Forest

V

ALORES

DE

F

1

(E

NTRENAMIENTO

)

V

ALORES

DE

F

1

(T

EST

)

C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635 agu-ban-par 0,641 0,782 0,928 0,570 0,972 0,761 0,741 0,958 0,986 -balon 0,788 0,852 0,885 - 0,958 0,928 0,583 0,806 0,972 0,986 camiseta 0,928 0,972 0,972 0,972 0,958 - 0,896 0,972 0,986 -fut-neg-uni 0,569 0,617 0,885 - 0,928 0,759 0,862 0,896 0,986 0,694 gorro 0,735 0,628 0,627 0,646 0,547 0,608 0,760 0,747 0,986 -pad-pal-neg 0,804 0,678 0,943 - 0,748 0,649 0,972 0,972 0,986 -pelota 0,788 0,871 0,943 - 0,813 0,783 0,832 0,644 0,986 0,986 pos-aro-tab 0,691 0,833 0,801 0,928 0,955 0,745 0,817 0,943 0,972 0,943 sudadera 0,986 - 0,958 0,972 0,972 - - 0,958 - -zapatilla 0,958 - 0,928 - 0,747 - 0,972 0,770 0,986 -C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635 agu-ban-par 0,651 - 0,957 0,737 0,857 0,226 0,694 0,957 0,857 -balon 0,663 0,800 0,952 - 0,957 - 0,520 0,909 0,857 0,957 camiseta 0,909 - 0,957 0,909 0,800 - 0,957 0,909 0,857 -fut-neg-uni 0,588 0,909 0,957 - - 0,778 0,800 - 0,957 0,671 gorro 0,667 0,778 0,778 0,400 0,508 0,800 0,520 0,957 0,857 -pad-pal-neg 0,455 0,957 0,957 - 1,000 0,842 - 0,957 0,857 -pelota 0,900 0,651 0,957 - 0,778 0,830 0,800 0,909 0,909 -pos-aro-tab 0,785 0,500 0,222 0,800 0,737 0,634 0,382 0,957 0,588 0,588 sudadera 0,957 - 0,957 - 0,909 - - 0,800 - -zapatilla - - - - 0,857 - - 0,800 0,588

(31)

-Modelo de Clasificación

(32)

Modelo de Clasificación

Indicadores de cambio en hábito de compra

Gris:

Si el valor de F1 de nuestro modelo sobre los

datos de entrenamiento devuelve “NA” o un valor

inferior a 0,6.

Verde:

Si el valor de F1 en los datos de entrenamiento y

test es superior a 0,6 en ambos casos.

Amarillo:

Si el valor de F1 en los datos de entrenamiento

es superior a 0,6 pero el modelo devuelve “NA” sobre los

datos de test.

Rojo:

Si el valor de F1 en los datos de entrenamiento es

superior a 0,6, pero su valor en los datos de test es

inferior a 0,6.

(33)

Modelo de Clasificación

Valores de C4.5 en test y resultado semafórico

C00394 C00416 C00449 C00859 C00914 C00994 C02541 C02975 C06584 C00635

agu-ban-par

0,737

-

0,957

0,800

0,857

0,250

0,612

0,957

0,857

-balon

0,583

0,533

0,952

-

0,957

-

0,661

0,909

0,857

0,957

camiseta

0,909

-

0,957

0,909

0,800

-

0,957

0,909

0,857

-fut-neg-uni

0,857

0,957

-

-

-

0,900

0,800

-

0,957

0,800

gorro

0,286

0,909

0,706

0,857

0,286

0,857

0,667

-

0,857

-pad-pal-neg

0,589

-

0,957

-

1,000

0,800

-

0,957

0,857

-pelota

0,900

0,847

0,957

-

0,857

0,690

0,800

0,957

0,909

-pos-aro-tab

0,727

0,500

0,222

0,800

0,800

0,683

0,333

0,957

0,588

0,588

sudadera

0,957

-

0,957

-

0,909

-

-

0,800

-

-zapatilla

-

-

-

-

0,909

-

-

0,957

0,588

(34)
(35)

-Conclusiones

Resultado

Modelo simple, escalable y fácilmente

entendible

Aplicable en empresas con necesidades

similares

Mejoras futuras

Optimización de la agrupación de productos

Incrementar su utilidad distinguiendo cambios

(36)

Agradecimientos:

Grupo Jim Sports

Alberto Bugarín (USC)

Manuel Mucientes (USC)

(37)

Miguel Ángel García Sánchez

Científico de Datos

https://miguel-angel-garcia.com

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

No había pasado un día desde mi solemne entrada cuando, para que el recuerdo me sirviera de advertencia, alguien se encargó de decirme que sobre aquellas losas habían rodado

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

[r]

SVP, EXECUTIVE CREATIVE DIRECTOR JACK MORTON

Social Media, Email Marketing, Workflows, Smart CTA’s, Video Marketing. Blog, Social Media, SEO, SEM, Mobile Marketing,