• No se han encontrado resultados

mineriadedatos

N/A
N/A
Protected

Academic year: 2020

Share "mineriadedatos"

Copied!
46
0
0

Texto completo

(1)

Minería de Datos

Cómo abordar un proyecto

en su Organización

Minería de Datos

Cómo abordar un proyecto

en su Organización

en su Organización

ACIS

María Esther Ordóñez O. Febrero 2010

[email protected]

en su Organización

ACIS

María Esther Ordóñez O. Febrero 2010

(2)

Agenda

Tecnologías Estratégicas - Gartner 2010

La nueva generación de BI Minería de Datos y BI

1

Minería de Datos y BI Metodología CRISP-DM

(3)

Tecnologías estratégicas 2010

Grupo Gartner - Octubre de 2009

Impactarán significativamente los negocios en los

siguientes 3 años siguientes 3 años

– Mayor potencial de “trastornar ” IT o Negocio

– Mayor requerimiento de inversión

– Implica riesgo no adoptarlas a tiempo

Impactan los planes, programas e iniciativas a

largo plazo, y son estratégicas

– Son maduras y de amplia utilización

– Generan ventajas estratégicas por adopción temprana

(4)

Tecnologías Estratégicas 2010

COMPUTACION EN LA NUBE

TECNOLOGIAS “VERDES”

SEGURIDAD Y MONITOREO

3

ANALISIS AVANZADO DE INFORMACION

(ADVANCED ANALYTICS) COMPUTACION

CLIENTE

REFORMA DEL DATA CENTER

COMPUTACION SOCIAL

MEMORIA TIPO FLASH

VIRTUALIZACION

(5)

Advanced Analytics

“…..The new step is to provide simulation,

prediction, optimization and other

analytics, not simply information, to analytics, not simply information, to

empower even more decision flexibility at

the time and place of every business

process action. The new step looks into the future, predicting what can or will happen….”

(6)

Agenda

Tecnologías Estratégicas - Gartner 2010

La nueva generación de BI

Minería de Datos y BI

5

Minería de Datos y BI Metodología CRISP-DM

(7)

La Estrategia...

BPM

Business Process BI

Buisiness Intelligence

6

Management

Inteligencia Corporativa

Intelligence

ECM

Enterprise Content Management

EAI

Enterprise Application

(8)

El estado ideal…..

7

(9)

Agenda

Tecnologías Estratégicas - Gartner 2010 La nueva generación de BI

Minería de Datos y BI

8

Minería de Datos y BI

Metodología CRISP-DM

(10)

Area de Preparación de Datos - ETLC (Data Staging Area) Sistemas Fuente (Source Systems) Almacenamiento Archivos Planos RDBMS Otros Procesamiento: Limpieza Poda Combinación Eliminación Duplicados Adaptación Extraer

Servidor de Presentación BODEGA DE DATOS

DW BUS

DATA MART # 1

Servicios Consulta OLAP (Rolap y/o Molap)

Dimensional

Orientado al Negocio

Actualizado con frecuencia Estructura Bus Dimensiones/Hechos Correspondientes Herramientas OLAP Generadores de Reportes - Consultas Aplicaciones de Usuario

Final

Usuario Final Acceso a Datos

Alimentar Poblar Replicar Recuperar Extraer Alimentar Alimentar Poblar Herramientas Scorecards Tableros de Control

Descargue dimensiones corregidas Adaptación Estandarización Dimens. correspondientes Almient. para Réplica Copia de soporte

Exportación a DataMart NO HAY SERVICIO DE

CONSULTA PARA USUARIOS

BUS

DATA MART # 2

DATA MART # 2

DW BUS Correspondientes Dimensiones/Hechos Correspondientes Descargue Resultados del Modelo MODELOS: Clasificación Estimación Predicción Asociación Segmentación Descripción Minería de Texto

(11)

Toma de Decisiones……

Monitoreo

Tableros de Control – KPI - Alertas

E st im a ci o n e s Tres Capas Gráfica, Datos Abstraídos 10 Análisis

Dimensiones – Jerarquías – Slice/Dice

Reporte

Reportes administrativos y Operativos

P la n e a c ió n P la n e s – M o d e lo s -E st im a ci o n e s Sumarizada, Datos Dimensionales Detallada, Datos Operacionales

(12)

RECOLECCION DE DATOS

ACCESO A DATOS

BODEGAS DE DATOS Y DSS

DATA MINING

PREGUNTA DE NEGOCIO

Cuáles fueron los ingresos el año anterior

Cuáles fueron las ventas de Cali en Marzo Análisis de ventas a diferentes niveles temporal y geográfico

Cuáles serán las ventas en períodos futuros TECNOLOGIA HABILITADORA Computadores, cintas, discos

Bases de Datos relacionales y SQL

Bodegas de Datos, Bases de Datos multidimensional es, OLAP Algoritmos avanzados, multiprocesador, bases de datos masivas

CARACTERISTIC AS

Resúmenes de datos pasados y estáticos

Datos dinámicos del pasado a nivel detallado

Datos dinámicos del pasado a múltiples niveles

Información proactiva -predictiva

(13)

Minería de Datos

Exploración y Análisis de datos, utilizando métodos automáticos o semi-automáticos, con

12

métodos automáticos o semi-automáticos, con el objeto de descubrir patrones no evidentes,

(14)

Minería de Datos

Es un Proceso de Negocio cuyo objetivo es

encontrar patrones en los datos, no evidentes y significativos, que generen conocimiento e

13

y significativos, que generen conocimiento e ideas de cómo conducir el negocio de una

(15)

Elementos Eticos y Legales

Pueden verse como métodos de

discriminación

Es necesario tener en cuenta las condiciones

bajo las cuales se recoge la información - Las

14

bajo las cuales se recoge la información - Las personas deben ser informadas de los

objetivos del proceso

Debe existir una explicación de negocio

(16)

Agenda

Tecnologías Estratégicas - Gartner 2010 La nueva generación de BI

Minería de Datos y BI

15

Minería de Datos y BI

Metodología CRISP-DM

(17)

Metodología CRISP-DM

CRISP-DM 1.0

CRoss-Industry Standard Process for

CRoss-Industry Standard Process for

Data Mining

Step-by-step data mining guide

2000

Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz

(DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler)

(18)

Entendimiento del Negocio

Entendimiento de los Datos

Implementación

Preparación de los Datos

FASES DE

CRISP-DM

DATOS

Modelaje

(19)

Determinar Objetivos de

Negocio

Verificar Situación

Actual

Determinar Entendimiento

del negocio

Determinar Objetivos de Minería

(20)

Objetivos Generales DM

Conocimiento y Fidelización de clientes

– Segmentación

– Cross-sell y Up-sell

Manejo del ciclo de vida del cliente

– Manejo del ciclo de vida del cliente

– Conocimiento Comunitario

– Identificar perfiles deseables para nuevos

negocios

– Optimización de campañas de Mercadeo

(21)

Objetivos Generales DM

Detección de Fraudes

– Identificación de patrones de comportamiento

(22)

Objetivos Generales DM

Eficiencia de Procesos

– Se aplican técnicas de DM a casos ya resueltos

para determinar reglas para determinar reglas

(23)

Objetivos Generales DM

Mejor definición de productos, combos

Administración de espacios en los

almacenes de retail almacenes de retail

Aislamiento de Fallas en redes de servicios

Optimización en la planeación y localización

de recursos

Nuevos Negocios (brokers de información)

(24)

Determinar Objetivos de Negocio Verificar Situación Actual Determinar Recolectar Datos Iniciales Describir Datos Explorar Entendimiento

(25)

Entendimiento de los Datos

Herramientas de ETLC

Medidas Estadísticas (media, sd etc.)

(26)

Determinar Objetivos de Negocio Verificar Situación Actual Determinar Recolectar Datos Iniciales Describir Datos Explorar Seleccionar Datos Limpiar Datos Construir Entendimiento

(27)

Preparación de los Datos

Herramientas de ETLC

Escoger atributos

Incluir medidas derivadas o calculadas

Incluir casos “positivos” y “negativos”

Dividir en conjunto de Entrenamiento –

Prueba - Evaluación

(28)

Determinar Objetivos de Negocio Verificar Situación Actual Determinar Recolectar Datos Iniciales Describir Datos Explorar Seleccionar Datos Limpiar Datos Construir Seleccionar Técnica(s) de Modelaje Generar Diseño de Pruebas Construir el Entendimiento

(29)

Minería de Datos - Tareas

Clasificación

Estimación Dirigido

28

Predicción / Forecasting

Asociación / Grupo por afinidad

Segmentación / Clustering

Descripción y Perfilación

Análisis Textual

(30)

Clasificación

Establecer una o más variables discretas de un

objeto, con base en otros atributos del conjunto de datos - Analizar características de un nuevo objeto y asignarlo a una clase particular predefinida

29

asignarlo a una clase particular predefinida

• Clasificar solicitud de crédito en riesgo alto - medio – bajo • Determinar qué teléfonos corresponde a máquinas de fax • Identificar Reclamos de Seguro fraudulentos

(31)

Estimación

Establecer el valor de una variable continua, los

resultados pueden ser ORDENADOS – Similar a Clasificación

30

Clasificación

Estimar el valor del ingreso total de un grupo familiar

Determinar probabilidad de que una transacción sea fraudulenta

Estimar número de hijos en un grupo familiar

Estimar el valor del ciclo de vida de un cliente

(32)

Predicción

Similar a clasificación o estimación, sólo que se

refiere a identificar un comportamiento o valor estimado futuro

31

Predecir qué clientes desertarán en los siguientes 6 meses

Predecir el monto de saldo transferido si un prospecto de

TC acepta la oferta de transferencia

Predecir qué suscriptores de teléfonos ordenarán servicios

(33)

Asociación/Agrupamiento Afinidad

Detectar eventos que ocurren de manera simultánea

32

Un cliente que compra cerveza, compra pañales con

probabilidad P1

Un cliente que compra Pizza, compra Vino con probabilidad P1

(34)

Segmentación/Clustering

Dividir población heterogénea en subgrupos más

homogéneos (segmentos o clusters)

33

Establecer los diferentes segmentos en que pueden

(35)

Descripción

Describir un comportamiento en una base de datos

compleja para aumentar el conocimiento y

entendimiento sobre gente, productos, procesos etc.

34

entendimiento sobre gente, productos, procesos etc. – Visualización - Diferenciación

Establecer que el porcentaje de mujeres que adquieren un

determinado producto es mayor que el de hombres

Establecer que personas de ciertas características apoyan a un

(36)

Análisis Textual

Convierte información desestructurada en

información estructurada – Análisis de Términos

Retroalimentación en datos de Call Center

35

Retroalimentación en datos de Call Center

Análisis de correos electrónicos

Clasificación de textos por temas

(37)

Técnicas

Arboles de Decisión Redes Neuronales Clustering

Reglas de Asociación Link Analysis

Razonamiento Basado en Memoria

Modelos de regresión lineal y logística Text Mining

(38)

Determinar Objetivos de Negocio Verificar Situación Actual Determinar Recolectar Datos Iniciales Describir Datos Explorar Seleccionar Datos Limpiar Datos Construir Seleccionar Técnica de Modelaje Generar Diseño de Pruebas Construir el Evaluar Resultados Revisar el Proceso Determinar Planear Implementa-ción Mantener y Monitorear el Plan Producir Entendimiento

(39)

Agenda

Tecnologías Estratégicas - Gartner 2010 La nueva generación de BI

Minería de Datos y BI

38

Minería de Datos y BI Metodología CRISP-DM

(40)

Conclusiones y Recomendaciones

Aunque DM utiliza tecnología avanzada,

un proyecto NO DEBE ser desarrollado

únicamente por expertos en tecnología.

únicamente por expertos en tecnología.

DM aporta valor únicamente si sus

resultados se ponen a servicio del

negocio

(41)

Conclusiones y Recomendaciones

DM es un proceso INTERACTIVO e

DM es un proceso INTERACTIVO e

ITERATIVO

(42)

Conclusiones y Recomendaciones

DM NO consiste únicamente en

algoritmos avanzados de análisis de

datos

datos

41

Entendimiento del Negocio

DATOS

Entendimiento de los Datos

Modelaje

Evaluación Implementación

(43)

Conclusiones y Recomendaciones

Aunque NO ES indispensable contar con

una DWH para DM, SI ES deseable.

La Bodega debe cumplir el requisito de

manejar el MAXIMO NIVEL DE

DETALLE

(44)

Conclusiones y Recomendaciones

Aunque DM saca provecho de grandes

volúmenes de datos, se han obtenido

resultados útiles con base en conjuntos

resultados útiles con base en conjuntos

de datos de tamaño mediano o pequeño

(cientos o miles de registros)

(45)

Conclusiones y Recomendaciones

La disponibilidad, relevancia y calidad de

los datos es fundamental para DM

(46)

Conclusiones y Recomendaciones

Una buena estrategia para empezar es

desarrollar un prototipo utilizando

herramientas libres (WEKA p.e.), pero

herramientas libres (WEKA p.e.), pero

teniendo en cuenta TODO el ciclo

metodológico

Referencias

Documento similar

En este apartado se explican los meta-modelos que se han diseñado para describir aplicaciones de datos en streaming, así como también fuentes de datos y procesadores

•Obtener información y datos relevantes para la elaboración de un diagnóstico de la situación del consumo de vino en aquél momento6. •Determinar los principales frenos y

Para determinar diseño de infraestructura para abastecer sistemas de riego se debe contar con una serie de datos; entre estos: datos climatológicos (horas luz,

UNIVERSITARIO DE CASTILLA Y LEÓN

[r]

El desarrollo de este plan de investigación plantea dos ámbitos bien diferenciados, los cuales abarcan desde la recopilación de datos bibliográficos iniciales o la recogida de

Además, la Embajada de España en Jamaica lleva a cabo diversas activi- dades de cooperación cultural, así como específicamente en apoyo de la enseñanza del español (taller

obtendremos datos de la variación de la absorbancia del VC con el tiempo. Estos datos deberemos ajustarlos a la ecuación integrada correspondiente y determinar por tanto, el orden