• No se han encontrado resultados

Fases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:

N/A
N/A
Protected

Academic year: 2021

Share "Fases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:"

Copied!
20
0
0

Texto completo

(1)

Minería de Datos

2. El Proceso de KDD

José Hernández Orallo

[email protected]

Máster y Cursos de Postgrado del DSIC Universitat Politècnica de València

2

Temario

1. Introducción a la Minería de Datos (DM) 1.1. Motivación

1.2. Problemas tipo y aplicaciones 1.3. Relación de DM con otras disciplinas 2. El proceso de KDD

2.1. Las Fases del KDD

2.2. Tipología de Técnicas de Minería de Datos

2.3. Sistemas Comerciales y Herramientas de Minería de Datos 2.4. Preparación y Visualización de datos

3. Técnicas de Minería de Datos

3.1. El Problema de la Extracción Automática de Conocimiento. 3.2. Evaluación de Hipótesis

3.3. Técnicas no supervisadas y descriptivas. 3.4. Técnicas supervisadas y predictivas. 4. Web Mining

4.1. Los Problemas de la Información No Estructurada.

4.2. Extracción de Conocimiento a partir de Documentos HTML y texto. 4.3. Extracción de Información semi-estructurada (XML).

5. Otros Aspectos

3

Objetivos Tema 2

• Conocer las fases del Descubrimiento de

Conocimiento de Bases de Datos y la importancia

de las mismas en el éxito del proceso (en especial

las de limpieza y selección de datos).

• Conocer el abanico de sistemas comerciales y sus

características comunes

• Reconocer los tipos de visualización más comunes

y su utilidad de cara a la explotación de datos

4 1. Determinar las fuentes de información que pueden ser

útiles y dónde conseguirlas.

2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida.

3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados.

4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el método de minería de datos

apropiado.

6. Evaluación, interpretación, transformación y representación de los patrones extraídos. 7. Difusión y uso del nuevo conocimiento.

El Proceso del KDD. FASES

Sistema de Información

KDD

Conocimiento Evaluación / Interpretación / Visualización Preparación de los Datos Minería de Datos Patrones

(2)

5

El Proceso del KDD. FASES

ƒ

Proceso detallado:

+ + + + -datos iniciales vista minable decisiones almacén de datos patrones

Ámbito, objetivos de negocio y de minería de datos

Integración y recopilación

preparación

de datos modelado evaluación despliegue

conocimiento

revisión

6

• Las primeras fases del KDD determinan que las fases

sucesivas sean capaces de extraer conocimiento

válido y útil a partir de la información original.

• Generalmente, la información que se quiere investigar

sobre un cierto dominio de la organización se

encuentra:

ƒ en bases de datos y otras fuentes muy diversas,

ƒ tanto internas como externas.

ƒ muchas de estas fuentes son las que se utilizan para el trabajo transaccional.

Fases del KDD: Recogida de Datos

El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y

desconectada del trabajo transaccional.

7

El proceso subsiguiente de minería de datos:

• Depende mucho de la fuente:

ƒ OLAP u OLTP.

ƒ Datawarehouse o copia con el esquema original. ƒ ROLAP o MOLAP.

• Depende también del tipo de usuario:

ƒ ‘picapedreros’ (o ‘granjeros’): se dedican

fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros, controlar valores anómalos, etc.

ƒ ‘exploradores’: encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos.

Fases del KDD: Recogida de Datos

8

Recogida de Información Externa:

• Aparte de información interna de la organización, los

almacenes de datos pueden recoger información

externa:

ƒ Demografías (censo), páginas amarillas, psicografías (perfiles por zonas), uso de Internet, información de otras organizaciones.

ƒ Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc.

ƒ Datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivas-deportivas, catástofres,..

(3)

9

Limpieza (data cleansing) y criba (selección) de datos:

• Se deben eliminar el mayor número posible de datos

erróneos o inconsistentes (limpieza) e irrelevantes

(criba).

Métodos estadísticos casi exclusivamente.

ƒresúmenes e histogramas (detección de datos anómalos). ƒselección de datos (muestreo, ya sea verticalmente, eliminando atributos, denominado “selección de características”, u horizontalmente, eliminando tuplas, denominado “muestreo”).

ƒredefinición de atributos (agrupación o separación).

Fases del KDD: Preparación de Datos

10

La selección y la limpieza pueden acompañarse de

“transformación” de atributos (numerización,

discretización, …).

• El resultado es un conjunto de filas y columnas

denominado:

• La vista minable integra datos de diferentes fuentes,

los limpia, selecciona y transforma, y los tipa, con el

fin de prepararlos para la modelización.

Fases del KDD: Preparación de Datos

VISTA MINABLE

11

Patrones a descubrir:

• Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrón quiere descubrir.

• El tipo de conocimiento que se desea extraer va a marcar claramente la

técnica

de minería de datos a utilizar. • Según como sea la búsqueda del conocimiento se puede

distinguir entre:

Directed data mining: se sabe claramente lo que se busca, generalmente predecir unos ciertos datos o clases.

Undirected data mining: no se sabe lo que se busca, se trabaja con los datos (¡hasta que confiesen!).

• En el primer caso, algunos sistemas de minería de datos se

encargan generalmente de elegir el algoritmomás idóneo entre los disponibles para un determinado tipo de patrón a buscar.

Fases del KDD: La Minería de Datos

12

La fase anterior produce una o más hipótesis de

modelos.

• Para seleccionar y validar estos modelos es

necesario el uso de criterios de evaluación de

hipótesis. Por ejemplo:

1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos independiente del que se ha utilizado para aprender el modelo. Se puede elegir el mejor modelo. 2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quería utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un

subconjunto de clientes y evaluar la fiabilidad del modelo.

Fases del KDD: Evaluación y

(4)

13

El despliegue del modelo a veces es trivial pero otras

veces requiere un proceso de implementación o

interpretación:

• El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas fraudulentas).

• El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de zonas geográficas según la distribución de los productos vendidos).

• El modelo puede tener muchos usuarios y necesita difusión: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la

organización (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto

ponerlos en estantes distantes).

Fases del KDD: Interpretación y

Difusión

14

Los procesos derivan en un mantenimiento:

• Actualización: Un modelo válido puede dejar de serlo: cambio de contexto (económicos, competencia, fuentes de datos, etc.).

• Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia sobre nuevos datos, con el objetivo de detectar si el modelo requiere una actualización.

Producen realimentaciones en el proceso KDD.

Fases del KDD:

Actualización y

Monitorización

15

Las técnicas de minería de datos crean modelos que son

predictivos y/o descriptivos.

• Un modelo predictivo responde preguntas sobre datos futuros.

ƒ¿Cuáles serán las ventas el año próximo?

ƒ¿Es esta transacción fraudulenta?

ƒ¿Qué tipo de seguro es más probable que contrate el cliente X?

• Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo:

ƒLos clientes que compran pañales suelen comprar cerveza.

ƒEl tabaco y el alcohol son los factores más importantes en la enfermedad Y.

ƒLos clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.

Tipología de Técnicas de Minería de

Datos

16

Ejemplo de Modelo Predictivo:

• Queremos saber si jugar o no jugar esta tarde al tenis. • Hemos recogido datos de experiencias anteriores:

Tipología de Técnicas de Minería de

Datos

Example Sky Temperature Humidity Wind PlayTennis

1 Sunny Hot High Weak No

2 Sunny Hot High Strong No

3 Overcast Hot High Weak Yes

4 Rain Mild High Weak Yes

5 Rain Cool Normal Weak Yes

6 Rain Cool Normal Strong No

7 Overcast Cool Normal Strong Yes

8 Sunny Mild High Weak No

9 Sunny Cool Normal Weak Yes

10 Rain Mild Normal Weak Yes

11 Sunny Mild Normal Strong Yes

12 Overcast Mild High Strong Yes

(5)

17

Ejemplo de Modelo Predictivo:

• Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de decisión, señalando el atributo “PlayTennis” como la clase (output).

• El resultado del algoritmo es el siguiente modelo:

• Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia:

(Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong)

es NO.

Tipología de Técnicas de Minería de

Datos

Outlook? YES Humidity? Sunny Overcast Rain Wind? YES NO YES NO

High Normal Strong Weak

18

Ejemplo de Modelo Descriptivo:

• Queremos categorizar nuestros empleados. • Tenemos estos datos de los empleados:

Tipología de Técnicas de Minería de

Datos

#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo

1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop Sí 2 6 M 9 20000 Sí Sí 3 Prop No 7 5 H 10 30000 Sí Sí 2 Prop No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000 Sí Sí 2 Prop No 3 1 H 13 20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H 19

Ejemplo de Modelo Descriptivo:

• Pasamos estos ejemplos a un algoritmo de clustering K-meams. • Se crean tres clusters, con la siguiente descripción:

Tipología de Técnicas de Minería de

Datos

cluster 1: 5 examples Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17

• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.

• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. 20

Tipos de conocimiento:

• Asociaciones: Una asociación entre dos atributos ocurre

cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta.

• Ejemplo, en un supermercado se analiza si los pañales y

los potitos de bebé se compran conjuntamente.

• Dependencias: Una dependencia funcional (aproximada o

absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas).

• Ejemplo: que un paciente haya sido ingresado en

maternidad determina su sexo.

La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio.

Tipología de Técnicas de Minería de

Datos

(6)

21

Tipos de conocimiento (cont.):

• Clasificación: Una clasificación se puede ver como el

esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas.

• Ejemplo: obtener para qué pacientes una operación de

cirugía ocular es satisfactoria según los atributos edad, número de miopías y astigmatismo.

Tipología de Técnicas de Minería de

Datos

22

Tipos de conocimiento (cont.):

• Agrupamiento / Segmentación: El agrupamiento (o clustering)

es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su

número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.

• Ejemplo: determinar qué tipos de clientes tengo atendiendo a sus patrones de compra.

Tipología de Técnicas de Minería de

Datos

Tipos de conocimiento (cont.):

• Tendencias/Regresión: El objetivo es predecir los valores de

una variable continua a partir de la evolución sobre una o más variable continua. Una de ellas puede ser el tiempo.

• Ejemplo, se intenta predecir el número de clientes o

pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores.

Tipología de Técnicas de Minería de

Datos

Un tipo de técnica puede servir para

varios tipos de estudios

Un tipo de estudio puede resolverse

con distintos tipos de técnicas

ƒ Es necesario conocer qué técnicas son posibles y más adecuadas para cada tipo de estudio

Tipología de Técnicas de Minería de

Datos

(7)

25

Correspondencia Tarea / Técnica

9 9 Bayes Classifiers 9 RBF 9 9 K-NN 9 CN2 9 Estudios Factoriales, análisis multivariante 9 A Priori (asociaciones) 9 9* Kmeans 9 Reg. Logística 9

Regresión lineal (local, global), exp.. 9 Kohonen 9 9 (CART) 9 (c4.5) Árboles de Decisión 9* 9 9 Redes Neuronales Otros (factoriales, correl, dispersión) Reglas asociación Clustering (agrup.) Regresión Clasificación DESCRIPTIVO / NO SUPERVISADO PREDICTIVO / SUPERVISADO TÉCNICA 26

Herramientas

ƒ

Paquetes de Minería de Datos:

ƒ Durante los 90, aparecen paquetes de minería de datos desde diferentes ámbitos:

ƒcomo evolución de paquetes o librerías de aprendizaje automático o reconocimiento de patrones: CART, See5, Neuroshell, Weka, PRW, ..

ƒcomo solución de los grandes del análisis de datos: SPSS, SAS, …

ƒcomo complemento de las herramientas de business intelligence y explotación de datos: IBM, Oracle, Microsoft, Teradata, …

ƒ Incorporan técnicas de preparación de datos, de modelado, de visualización y de evaluación.

27

Herramientas

Elder Research, www.datamininglab.com 28

Tipos de Herramientas:

ƒ Según el acoplamiento:

ƒ Standalone: Los datos se deben exportar/convertir al formato interno del sistema de DM: Angoss Knowledge Seeker, Weka, ….

ƒ On-top: pueden funcionar sobre un sistema propietario (SPSS Clementinesobre ODBC, …).

ƒ Embedded (funcionan integrados propietarios): Oracle Data Miner, IBM...

ƒ Según la extensibilidad y el uso directo en aplicaciones:

ƒ Se pueden añadir nuevos algoritmos fácilmente: Kepler, Weka, …

ƒ Se puede (con paciencia): Clementine, Oracle…

ƒ Complejo o imposible: SAS, …

ƒ Según la variedad de técnicas:

ƒ Monotécnica: Neuroshell, CART, See5.0, …

ƒ Suites: Clementine, Enterprise Miner, Oracle Data Miner…

Herramientas

(8)

29

ƒ

Costes:

ƒ Muy variables:

ƒgratuito (p.ej. Weka).

ƒmiles de euros (p.ej. SQL Server Data Mining)

ƒdecenas de miles euros (p.ej. Clementine, Oracle, …)

ƒa cientos de miles de euros (inc. Hardware, p.ej. Teradata) ƒ Herramientas Gratuitas más importantes:

ƒ WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Libro: Witten & Frank 2004)

ƒ Rproject: herramienta gratuita de análisis estadístico (http://www.R-project.org/)

Herramientas

30

ƒ

EJEMPLO: Clementine (www.spss.com)

ƒ

Herramienta que incluye:

ƒfuentes de datos (ASCII, XLS, ODBC, …). ƒinterfaz visual.

ƒdistintas técnicas de minería de datos: redes neuronales, reglas, clustering, ….

ƒevaluación por partición, …

ƒmanipulación de datos (combinación y separación). ƒgestión de proyectos (CRISP-DM), exportación de

modelos, …

ƒ Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.

Herramientas

ƒ

EJEMPLO: Clementine (www.spss.com)

Herramientas

EJEMPLO: SAS ENTERPRISE MINER (EM)

ƒ

Herramienta completa. Incluye:

ƒinterfaz gráfico.

ƒconexión a bases de datos (a través de ODBC y SAS datasets).

ƒevaluación por partición, …

ƒdistintas técnicas: árboles de decisión, redes neuronales, regresión y clustering.

ƒconversión de los modelos en código SAS.

ƒ Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar.

(9)

33

EJEMPLO:

SAS ENTERPRISE MINER (EM) (flujo del proceso KDD)

Herramientas

34

Angoss Knowledge Seeker:

Herramientas

35

ƒ

Oracle: Herramientas “Business Intelligence” y

“Data Mining”

ƒ Engine (Java DM) desde Oracle 9i ƒ Suite (OracleBi Data Miner).

Herramientas

Difundir Analizar Rastrear Actuar Decidir Modelar Definir Hipótesis Fuente: IDC, 2004 Oracle Oracle10g10g (RDBMS con (RDBMS con OLAP y DM) OLAP y DM) Oracle Oracle Reports Reports Services Services OracleBI OracleBI Warehouse Warehouse Builder Builder Oracle Oracle E E--BusinessBusiness Suite Suite Oracle

OracleDailyDaily

Business Business Intelligence Intelligence Oracle Oracle Balanced Balanced Scorecard Scorecard OracleActivit OracleActivit y yBasedBased Management Management Oracle Oracle Enterprise Enterprise Planning & Planning & Budgeting Budgeting OracleBI OracleBI Discoverer Discoverer OracleBI OracleBI Data

Data MinerMiner

OracleBI OracleBI Spreadsheet Spreadsheet Add Add--inin Non

Non--OracleOracle sources

sources

36

OracleBI Data Miner

(10)

37

MS SQL SERVER: Analysis Services

ƒ OLAP Services de SQL Server 97 se amplió a partir de SQL Server 2000 con características de DM en el llamado “Analysis Services”. ƒ Reforzado en el SQL Server 2005. ƒ Lenguaje DMX: ƒ 1. Crear el modelo ƒ 2. Entrenar el modelo ƒ 3. Realizar predicciones

ƒ La integración y visualización es a veces mediante “Data Mining Client Ribbon” o Excel.

Herramientas

38

Herramientas

Weka, University of Waikato, NZ. (cs.waikato.ac.nz)

Herramientas

Weka, University of Waikato, NZ. (cs.waikato.ac.nz)

Herramientas

ƒ Situación de las herramientas según presencia y rendimiento (según METAGROUP dic. 2004).

(11)

41

ƒ

Los datos a integrar dependen de los objetivos de

minería de datos, que, a su vez, dependen de los

objetivos de negocio.

ƒ Ejemplo:

ƒ Objetivo de negocio: “Reducir colas”

ƒ Objetivo de negocio refinado: “Asignar recursos más ajustados en cajas según la afluencia de clientes”.

ƒ Objetivo de minería de datos: “Predecir con antelación la afluencia de clientes de una tienda en cualquier tramo del día”.

Integración de Datos

42

ƒ

Como resultado de esta fase de definición del

problema o de establecimiento de los objetivos de

minería de datos:

ƒ Lista de objetivos de minería de datos y su correspondencia con objetivos de negocio.

ƒ Esclarecimiento de qué datos, tanto internos como externos pueden ser necesarios para cada uno de ellos. ƒ Priorización de los mismos según la facilidad de llevarlo a

cabo (datos necesarios, recursos, etc.) y el impacto en el objetivo de negocio esperado.

ƒ

Empezaremos por los primeros de la lista.

Con esta priorización evitamos objetivos que no resuelven ningún problema pertinente u objetivos imposibles.

Integración de Datos

43

Integración de Datos

ƒ

Una vez definidos y seleccionados los objetivos de

análisis es necesario esclarecer qué datos son

necesarios para poder obtener los modelos

deseados:

ƒ

Dos aproximaciones:

ƒRecoger exclusivamente los datos necesarios para el objetivo u objetivos de análisis en cuestión.

ƒCrear un repositorio de datos para permitir este y otros análisis ulteriores.

Es necesario RECOPILAR e

INTEGRAR los datos.

44

Integración de Datos

ƒ Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra:

ƒ en bases de datos y otras fuentes muy diversas, ƒ tanto internas como externas.

ƒ muchas de estas fuentes son las que se utilizan para el trabajo transaccional.

ƒ se requiere un histórico suficiente (1, 5 o 10 años dependiendo del ámbito.

ƒ el nivel de detalle (granularidad) para la minería de datos ha de ser alto.

(12)

45

Integración de Datos

ƒ La aproximación mínima si se quiere realizar una minería de datos puntual u ocasional es

ƒCrear un repositorio de datos.

ƒ La aproximación adecuada si se quiere realizar minería de datos con continuidad y abierta a nuevos objetivos de análisis es:

ƒCrear un almacén de datos o añadir un “datamart” a un almacén de datos existente.

El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional.

46

Integración de Datos

ƒ

Recogida de Información

Base de Datos Transaccional 1 Fuente de Datos 1 Fuentes Externas Fuentes Internas Fuente de Datos 2 Fuente de Datos 3 HTML Repositorio o Almacén de Datos texto Base de Datos Transaccional 2 Informes texto

Integración de Datos

ƒ

Recogida de Información Interna

ƒ

Diferentes formatos:

ƒBases de datos operacionales… ƒHojas de cálculo…

ƒInformes internos: estratégicos… ƒReglas de negocio…

ƒ

La integración es costosa y difícil hacia un único

formato.

Integración de Datos

ƒ

Recogida de Información Interna

ƒ

Información no siempre adecuada:

ƒDatos insuficientes:

ƒEjemplo: la tarjeta de unos grandes almacenes pide la nacionalidad del cliente, pero no los hábitos alimenticios o el tipo de trabajo (sólo cuenta propia o ajena o parado). Estos factores no podrán entrar en el análisis.

ƒDatos incompletos o de baja calidad:

ƒEjemplo: el formulario permite dejar algunos campos en blanco. Los datos de la tarjeta no se actualizan si el cliente cambia de domicilio, de trabajo, de pareja, …

(13)

49

Integración de Datos

ƒ

Recogida de Información Externa

ƒ

Necesidad de fuentes muy diversas:

ƒDemografías (censo), páginas amarillas, usos y hábitos de la población, penetración de teléfono, luz o Internet. ƒDatos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. ƒDatos resumidos de áreas geográficas, distribución y precios de la competencia, evolución de la economía... ƒInformación de calendarios y climatológicas,

información de tráfico, programaciones televisivas-deportivas, catástofres,..

ƒBases de datos externas compradas a otras compañías.

50

Integración de Datos

ƒ ¿Es necesario siempre tener un almacén de datos para hacer minería de datos?

ƒ NO

ƒ ¿Es conveniente tener un almacén de datos para hacer

minería de datos de una manera regular si el volumen de datos es importante?

ƒ

ƒ ¿Si existe ya un almacén de datos en la organización, puedo usarlo para la minería de datos?

ƒ NO SIEMPRE. Depende de si tiene la suficiente

granularidad y las dimensiones necesarias para el análisis.

51

ƒ

La preparación de datos es una de las fases del

proceso de extracción de conocimiento a partir de

datos (KDD).

Preparación de Datos

Esta fase suele suponer cerca de

la mitad del esfuerzo del proceso

de extracción de conocimiento.

52

ƒ

Tras la recogida e integración de datos:

ƒ El objetivo de la “Preparación de Datos” es obtener la “VISTA MINABLE”, a partir de unos datos que podían ser

inadecuados, faltantes, erróneos, irrelevantes, dispersos, etc. … … … … … … … ... no … 0 no 2.100 24.000 10 105 sí … 0 no 1.900 18.000 15 104 no … 1 sí 1.700 9.000 9 103 sí … 0 sí 3.500 30.000 2 102 no … 2 sí 2.200 60.000 15 101 Devuelve-crédito … Cuentas morosas Casa propia Salario (euros) C-crédito (euros) D-crédito (años) Idc VISTA MINABLE

Preparación de Datos

Vista Minable: conjunto de datos que incluyen

todas las variables de interés para el problema concreto en el formato adecuado.

(14)

53

ƒ

La preparación de datos incluye:

ƒComprensión de los datos ƒVisualización de los datos ƒLimpieza

ƒTransformación ƒSelección

Preparación de Datos

54

ƒ

El primer paso consiste en conocer y comprender

los datos: un resumen de características es útil:

Preparación de Datos: Comprensión

ƒ

Las técnicas de visualización ayudan a comprender

los datos.

Preparación de Datos: Visualización

Examinando dato a dato con TableLens

ƒ

Las técnicas de visualización ayudan a comprender

los datos.

Preparación de Datos: Visualización

(15)

57

ƒ

Las técnicas de visualización ayudan a comprender

los datos.

Preparación de Datos: Visualización

© Francisco Javier Ferrer Troyano Coordenadas paralelas

58

ƒ

Las técnicas de visualización ayudan a comprender

los datos.

Preparación de Datos: Visualización

© Francisco Javier Ferrer Troyano Caras de Chernoff

59

ƒ

Las técnicas de visualización ayudan a comprender

los datos.

Preparación de Datos: Visualización

© Francisco Javier Ferrer Troyano Series temporales

60

ƒ

Atributos Nominales: Debemos analizar con detalle

cada uno de los atributos:

ƒ

Podemos

detectar:

ƒValores redundantes: ƒ(Hombre,Varón) ƒValores despreciables

(agrupar valores como

otros)

(16)

61

ƒ

Atributos Numéricos: Debemos analizar con detalle

cada uno de los atributos:

Podemos detectar:

ƒValores anómalos ƒDistribuciones en los datos

Preparación de Datos: Limpieza

62

ƒ

Atributos Numéricos: Otra alternativa especialmente

útil para los atributos numéricos son las gráficas de

dispersión.

Preparación de Datos: Limpieza

ƒ

Atributos Numéricos: Cuando tenemos más de dos

variables el gráfico anterior se puede repetir para

todas las combinaciones posibles.

Preparación de Datos: Limpieza

Acciones ante datos anómalos (outliers) o faltantes:

ƒignorar.

ƒfiltrar (eliminar o sustituir) la columna. ƒfiltrar la fila.

ƒreemplazar el valor por un valor de media o predicho. ƒsegmentar las filas entre las de datos correctos y el resto y trabajar separadamente.

ƒdiscretizar los atributos numéricos.

ƒDesistir y modificar la política de calidad de datos para la próxima vez.

(17)

65

ƒ

Transformaciones y Selecciones:

ƒ

Transformaciones:

ƒ Transformaciones globales: p.ej. filas por columnas. ƒ Creación o modificación de atributos:

ƒDiscretización y Numerización.

ƒNormalización.

ƒAtributos derivados. ƒ Reducción de atributos.

ƒ

Selecciones:

ƒ Verticales (sobre las características / atributos):

ƒSelección de características. ƒ Horizontales (sobre las instancias):

ƒMuestreo.

Preparación de Datos:

Transf. y Selección

El mismo objetivo: reducción de datos

66

Reducción de datos:

ƒLa proporción de dimensiones (variables) respecto a la cantidad de instancias puede marcar la calidad de los modelos.

ƒUna manera de intentar resolver este problema es mediante la reducción de dimensiones, por:

ƒselección de un subconjunto de atributos, o ƒsustitución del conjunto de atributos iniciales por otros diferentes.

Preparación de Datos:

Transf. y Selección

Maldición de la dimensionalidad

67

Intercambio de Dimensiones: (filas por columnas)

EJEMPLO:

Una tabla de cestas de la compra, donde cada atributo indica si el producto se ha comprado o no.

ƒ Objetivo: Ver si dos productos se compran conjuntamente (regla de asociación).

Es muy costoso: hay que mirar al menos la raíz cuadrada de todas las relaciones (cestas).

Y puede haber millones en una semana... Sin embargo...

Productos sólo hay unos 8.000.

Preparación de Datos: Transformación

68

Intercambio de Dimensiones: EJEMPLO

Si se intercambian filas por columnas tenemos:

ƒ

Sólo es necesario combinar dos filas para saber si

hay asociación.

B1 B2 B3 B4 B5 B6 ... Jabón X X Huevos X X Patatas Fritas X X X Champú X X Jabón + Champú X X Huevos + Patatas X X

(18)

69

ƒEn otras ocasiones añadir atributos nuevos puede mejorar el proceso de aprendizaje 0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Meses V en tas ( m ill . e u ro s) Datos

Modelo Lineal At. Originales Modelo Lineal At. Cuadráticos

ƒLa regresión lineal no se aproxima a la solución

ƒAñadiendo un nuevo atributo z=meses^2 se obtiene un buen modelo

Creación de atributos:

Preparación de Datos: Transformación

70

ƒEl conocimiento del dominio es el factor que más determina la creación de buenos atributos derivados

Atributo Derivado Fórmula

Índice de obesidad Altura2/ peso

Hombre familiar Casado, varón e “hijos>0”

Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de cabeza) Riesgo póliza X-de-N (edad < 25, varón, años de carné < 2, vehículo deportivo)

Beneficios brutos Ingresos - Gastos

Beneficios netos Ingresos – Gastos – Impuestos Desplazamiento Pasajeros * kilómetros Duración media Segundos de llamada / número de llamadas

Densidad Población / Área

Retardo compra Fecha compra – Fecha campaña

Creación de atributos:

Preparación de Datos: Transformación

La discretización, o cuantización (también llamada “binning”) es la conversión de un valor numérico en un valor nominal ordenado.

La discretización se debe realizar cuando: ƒEl error en la medida puede ser grande ƒExisten umbrales significativos (p.e. notas)

ƒEn ciertas zonas el rango de valores es más importante que en otras (interpretación no lineal)

ƒAplicar ciertas tareas de MD que sólo soportan atributos nominales (p.e. reglas de asociación)

Discretización:

Preparación de Datos: Transformación

Ejemplo: atributo “tícketssemanales” (numérico, de 1 a 15).

Discretización :

Preparación de Datos: Transformación

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Atributo “tícketssemanalesNOM” (nominal: bajo, medio, alto).

(19)

73

ƒ

La numerización es el proceso inverso a la

discretización

ƒ

La numerización se debe realizar cuando se

quieren aplicar ciertas técnicas de MD que

sólo soportan atributos numéricos (p.e.

Regresión, métodos basados en distancias)

Numerización:

Preparación de Datos: Transformación

convertir un atributo nominal en numérico.

74

ƒnumerización “1 a n”: Si una variable nominal x tiene posibles valores creamos n variables numéricas, con valores 0 o 1 dependiendo de si la variable nominal toma ese valor o no.

ƒEJEMPLO: Convertir el campo “tarjeta” que contiene los

valores: { “VISA”, “4B”, “Amer”, “Maestro” } en cuatro atributos binarios.

ƒnumerización “1 a 1”: Se aplica si existe un cierto orden o magnitud en los valores del atributo nominal.

ƒEJEMPLO: si tenemos categorías del estilo {niño, joven,

adulto, anciano} podemos crear un único atributo y numerar los valores de 1 a 4.

Preparación de Datos: Transformación

Numerización:

75

ƒ

Algunos métodos de aprendizaje funcionan mejor con los atributos numéricos normalizados entre 0 y 1.

ƒTipos de normalización: ƒlineal uniforme: ƒsigmoidal ƒ

ƒEjemplo: Los tíckets semanales pasan de estar entre 0 y 15 a

estar entre 0 y 1. min max min ' − − = v v

Normalización:

Preparación de Datos: Transformación

76

ƒLa técnica más conocida para reducir la dimensionalidad por transformación se denomina “análisis de componentes

principales” (“principal component analysis”), PCA.

ƒPCA transforma los matributos originales en otro conjunto de atributos pdonde p≤m.

ƒEste proceso se puede ver geométricamente como un cambio de ejes en la representación (proyección). ƒLos nuevos atributos se generan de tal manera que son independientes entre sí y, además, los primeros tienen más relevancia (más contenido informacional) que los últimos.

Reducción de atributos por transformación:

(20)

77 ƒMuestreo más habitual: ƒAleatorio Simple: ƒcon reemplazamiento, o ƒsin reemplazamiento. ƒOtros: ƒAleatorio Estratificado. ƒDe grupos. ƒExhaustivo.

Preparación de Datos: Selección

Muestreo:

ƒ

permite reducir el tamaño de datos de trabajo

78

Muestreo:

ƒ

¿Con cúantos datos es preferible trabajar?

ƒDepende, en general, del número de atributos y

valores(“grados de libertad” ) y del método de aprendizaje y de su expresividad (por ejemplo una regresión lineal requiere muchos menos ejemplos que una red neuronal). ƒSe utiliza una estrategia incremental, en el que se va haciendo la muestra cada vez más grande (y diferente si es posible) hasta que se vea que los resultados no varían significativamente entre un modelo y otro.

Referencias

Documento similar

especial para las que tienen un intercambio de datos intensivo... Fases en el proceso de desarrollo

Los aspectos evaluados sobre el Programa de Doctorado de la Facultad de Psicología en el Cuestionario de Satisfacción de Movilidad para los Estudiantes Salientes, realizado tras

Cumplimiento de obligaciones o funciones legales y/o contractuales relacionadas con el desarrollo de actividades propias del objeto social de METRO DE MEDELLIN LTDA., así como

1. En todos los protocolos, formularios y procedimientos de recogida de datos utilizados por la Universidad de Málaga se introducirán cláusulas de protección de datos en las que

- Utilización de medios tecnológicos en el proceso de aprendizaje para la recogida ordenada y la organización de datos; la elaboración y creación de representaciones gráficas de datos

De non ser así, as facturas non poderán tramitarse para o pago, e a USC, a través do responsable de asuntos económicos do centro da USC que solicitou os seus servicios Rexeitará

Esta clase tiene como objetivo extraer, transformar (si fuese necesario) y cargar los datos fuentes, encontrados en la base de datos netcontable en la tabla tercero y el

Dado que en las distintas AAPP existen fases que implican la coordinación de un volumen importante de alumnos y Profesores-Tutores para la recogida de datos conjuntos (a nivel del