• No se han encontrado resultados

MINERÍA DE DATOS - INTRODUCCIÓN INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS

N/A
N/A
Protected

Academic year: 2021

Share "MINERÍA DE DATOS - INTRODUCCIÓN INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS"

Copied!
12
0
0

Texto completo

(1)

MINERÍA DE DATOS - INTRODUCCIÓN 1

MINERÍA DE DATOS

-INTRODUCCIÓN

 INTRODUCCIÓNA A LA MINERÍA DE DATOS.

 EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y

PRINCIPALES ALGORITMOS.

 FASE DE SELECCIÓN EN MINERÍA DE DATOS.  FASE DE EXPLORACIÓN EN MINERÍA DE DATOS.  FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS.

MINERÍA DE DATOS - INTRODUCCIÓN 2

INTRODUCCIÓN A LA MINERÍA DE

DATOS

MINERÍA DE DATOS - INTRODUCCIÓN 3

INTRODUCCIÓN A LA MINERÍA DE

DATOS

 EL OBJETIVO ES EL ANÁLISIS DE GRANDES VOLÚMENES DE

DATOS PARA LA OBTENCIÓN DE MODELOS Y PATRONES

PREDICTIVOS O DESCRIPTIVOS:

SE BUSCA EL DESCUBRIMIENTO DE CONOCIMIENTO EN LAS BASES DE DATOS.

SE EMPLEAN TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICAS.

MINERÍA DE DATOS - INTRODUCCIÓN 4

INTRODUCCIÓN A LA MINERÍA DE

DATOS

MINERÍA DE DATOS - INTRODUCCIÓN 5

INTRODUCCIÓN A LA MINERÍA DE

DATOS

 MOTIVACIÓN:

NUEVAS NECESIDADES DEL ANÁLISIS DE GRANDES

VOLÚMENES DE DATOS.

EL AUMENTO DEL VOLUMEN Y VARIEDAD DE

INFORMACIÓN QUE SE ENCUENTRA INFORMATIZADA EN

BASES DE DATOS DIGITALES HA CRECIDO ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA.

GRAN PARTE DE ESTA INFORMACIÓN ES HISTÓRICA, ES

DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE HAN PRODUCIDO.

APARTE DE SU FUNCIÓN DE “MEMORIA DE LA ORGANIZACIÓN”, LA INFORMACIÓN HISTÓRICA ES ÚTIL PARA PREDECIR LA INFORMACIÓN FUTURA.

MINERÍA DE DATOS - INTRODUCCIÓN 6

INTRODUCCIÓN A LA MINERÍA DE

DATOS

LA MAYORÍA DE DECISIONES DE EMPRESAS, ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN INFORMACIÓN DE EXPERIENCIAS PASADAS EXTRAÍDAS DE FUENTES MUY DIVERSAS.

LAS DECISIONES COLECTIVAS SUELEN TENER

CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN

VOLÚMENES DE DATOS QUE DESBORDAN LA CAPACIDAD HUMANA.

EL ÁREA DE LA EXTRACCIÓN (SEMI-)AUTOMÁTICA DE CONOCIMIENTO DE BASES DE DATOS HA ADQUIRIDO

RECIENTEMENTE UNA IMPORTANCIA CIENTÍFICA Y ECONÓMICA INUSUAL.

(2)

MINERÍA DE DATOS - INTRODUCCIÓN 7

INTRODUCCIÓN A LA MINERÍA DE

DATOS

TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS

CLÁSICOS:

NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (108

-1012BYTES).

DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS /

ATRIBUTOS): 102-104.

EL USUARIO FINAL NO ES UN EXPERTO EN APRENDIZAJE

AUTOMÁTICO NI EN ESTADÍSTICA.

EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO

LOS DATOS:

INDUSTRIA: VENTAJAS COMPETITIVAS, DECISIONES MÁS

EFECTIVAS.

CIENCIA: DATOS NUNCA ANALIZADOS, BANCOS NO

CRUZADOS, ETC.

PERSONAL: “INFORMATION OVERLOAD”...

MINERÍA DE DATOS - INTRODUCCIÓN 8

INTRODUCCIÓN A LA MINERÍA DE

DATOS

LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES

DE USAR Y NO ESCALAN AL NÚMERO DE DATOS TÍPICOS EN BD.

APARECE EL “DESCUBRIMIENTO DE CONOCIMIENTO A PARTIR DE BASES DE DATOS”:

KDD: KNOWLEDGE DISCOVERY FROM DATABASES.

MINERÍA DE DATOS - INTRODUCCIÓN 9

INTRODUCCIÓN A LA MINERÍA DE

DATOS

 RELACIÓN DEL DM CON OTRAS DISCIPLINAS:

KDD: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES

VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS DATOS”:

FAYYAD, 1996.

DIFERENCIA CLARA CON MÉTODOS ESTADÍSTICOS:

LA ESTADÍSTICA SE UTILIZA PARA VALIDAR O

PARAMETRIZAR UN MODELO SUGERIDO Y

PREEXISTENTE, NO PARA GENERARLO. DIFERENCIA SUTIL:

EL “ANÁLISIS INTELIGENTE DE DATOS” (IDA: INTELLIGENT DATA ANALYSIS) QUE CORRESPONDÍA

CON EL USO DE TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN EL ANÁLISIS DE LOS DATOS.

MINERÍA DE DATOS - INTRODUCCIÓN 10

INTRODUCCIÓN A LA MINERÍA DE

DATOS

KDD NACE COMO INTERFAZ Y SE NUTRE DE DIFERENTES

DISCIPLINAS:

ESTADÍSTICA.

SISTEMAS DE INFORMACIÓN / BASES DE DATOS. APRENDIZAJE AUTOMÁTICO / IA.

VISUALIZACIÓN DE DATOS.

COMPUTACIÓN PARALELA / DISTRIBUIDA.

INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS.

MINERÍA DE DATOS - INTRODUCCIÓN 11

INTRODUCCIÓN A LA MINERÍA DE

DATOS

LA MINERÍA O PROSPECCIÓN DE DATOS (DM) NO ES MÁS QUE

UNA FASE DEL KDD:

FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y

ESTADÍSTICOS PARA OBTENER HIPÓTESIS DE PATRONES Y MODELOS.

AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS,

VULGARMENTE SE ASIMILA KDD CON DM.

ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO

FÁCIL DEL TÉRMINO “MINERÍA DE DATOS” HAN HECHO QUE ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA.

MINERÍA DE DATOS - INTRODUCCIÓN 12

INTRODUCCIÓN A LA MINERÍA DE

DATOS

LA MINERÍA DE DATOS NO ES UNA EXTENSIÓN DE LOS SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP (ON-LINE ANALYTICAL PROCESSING).

LA MINERÍA DE DATOS ASPIRA A MÁS.

OTRAS HERRAMIENTAS, P.EJ. CONSULTAS SOFISTICADAS O

ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS COMO:

“¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?”. “¿LAS VENTAS DEL PRODUCTO X BAJAN CUANDO

PROMOCIONAMOS EL PRODUCTO Y?”.

PERO SÓLO CON TÉCNICAS DE MINERÍA DE DATOS

PODREMOS RESPONDER A PREGUNTAS DEL ESTILO:

“¿QUÉ FACTORES INFLUYEN EN LAS VENTAS DEL

PRODUCTO X?”.

“¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS

(3)

MINERÍA DE DATOS - INTRODUCCIÓN 13

INTRODUCCIÓN A LA MINERÍA DE

DATOS

VISIÓN CON LAS HERRAMIENTAS TRADICIONALES:

EL ANALISTA EMPIEZA CON UNA PREGUNTA, UNA

SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA LOS DATOS Y CONSTRUYE UN MODELO. EL ANALISTA

PROPONE EL MODELO. VISIÓN CON LA MINERÍA DE DATOS:

AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE

PROPONER MODELOS, EL SISTEMA ENCUENTRA Y

SUGIERE MODELOS. VENTAJAS:

GENERAR UN MODELO REQUIERE MENOS ESFUERZO

MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES DE DATOS.

SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS

AUTOMÁTICAMENTE, Y ESTO AUMENTA LA PROBABILIDAD DE ENCONTRAR UN BUEN MODELO.

EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE

CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA.

MINERÍA DE DATOS - INTRODUCCIÓN 14

INTRODUCCIÓN A LA MINERÍA DE

DATOS

MINERÍA DE DATOS - INTRODUCCIÓN 15

INTRODUCCIÓN A LA MINERÍA DE

DATOS

 ÁREAS DE APLICACIÓN: TOMA DE DECISIONES:

BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS

SANITARIAS / DEMOGRÁFICAS, ETC.

PROCESOS INDUSTRIALES:

COMPONENTES QUÍMICOS, COMPUESTOS, MEZCLAS,

ESMALTES, PROCESOS, ETC.

INVESTIGACIÓN CIENTÍFICA:

MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA,

ETC.

AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE.

MINERÍA DE DATOS - INTRODUCCIÓN 16

INTRODUCCIÓN A LA MINERÍA DE

DATOS

SOPORTE AL DISEÑO DE BASES DE DATOS. REVERSE ENGINEERING:

DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA

QUE LUEGO EL SISTEMA LA NORMALICE.

MEJORA DE CALIDAD DE DATOS. MEJORA DE CONSULTAS:

SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS

U OTRAS CONDICIONES EVITABLES.

MINERÍA DE DATOS - INTRODUCCIÓN 17

INTRODUCCIÓN A LA MINERÍA DE

DATOS

 ÁREAS DE APLICACIÓN – PROBLEMAS TIPO:

APLICACIONES DE KDD PARA TOMA DE DECISIONES, SEGÚN DILLY – 1996:

COMERCIO / MARKETING:

• IDENTIFICAR PATRONES DE COMPRA DE LOS CLIENTES.

• BUSCAR ASOCIACIONES ENTRE CLIENTES Y CARACTERÍSTICAS DEMOGRÁFICAS.

• PREDECIR RESPUESTA A CAMPAÑAS DE MAILING. • ANÁLISIS DE CESTAS DE LA COMPRA.

MINERÍA DE DATOS - INTRODUCCIÓN 18

INTRODUCCIÓN A LA MINERÍA DE

DATOS

BANCA:

• DETECTAR PATRONES DE USO FRAUDULENTO DE TARJETAS DE CRÉDITO.

• IDENTIFICAR CLIENTES LEALES.

• PREDECIR CLIENTES CON PROBABILIDAD DE CAMBIAR SU AFILIACIÓN.

• DETERMINAR GASTO EN TARJETA DE CRÉDITO POR GRUPOS.

• ENCONTRAR CORRELACIONES ENTRE INDICADORES FINANCIEROS.

• IDENTIFICAR REGLAS DE MERCADO DE VALORES A PARTIR DE HISTÓRICOS.

(4)

MINERÍA DE DATOS - INTRODUCCIÓN 19

INTRODUCCIÓN A LA MINERÍA DE

DATOS

SEGUROS Y SALUD PRIVADA:

• ANÁLISIS DE PROCEDIMIENTOS MÉDICOS SOLICITADOS CONJUNTAMENTE.

• PREDECIR QUÉ CLIENTES COMPRAN NUEVAS PÓLIZAS.

• IDENTIFICAR PATRONES DE COMPORTAMIENTO PARA CLIENTES CON RIESGO.

• IDENTIFICAR COMPORTAMIENTO FRAUDULENTO.

TRANSPORTES:

• DETERMINAR LA PLANIFICACIÓN DE LA DISTRIBUCIÓN ENTRE TIENDAS.

• ANALIZAR PATRONES DE CARGA.

MINERÍA DE DATOS - INTRODUCCIÓN 20

INTRODUCCIÓN A LA MINERÍA DE

DATOS

MEDICINA:

• IDENTIFICACIÓN DE TERAPIAS MÉDICAS SATISFACTORIAS PARA DIFERENTES ENFERMEDADES. • ASOCIACIÓN DE SÍNTOMAS Y CLASIFICACIÓN

DIFERENCIAL DE PATOLOGÍAS.

• ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES, HÁBITOS, ALIMENTICIOS, ETC.) DE RIESGO / SALUD EN DISTINTAS PATOLOGÍAS.

• SEGMENTACIÓN DE PACIENTES PARA UNA ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO. • PREDICCIONES TEMPORALES DE LOS CENTROS

ASISTENCIALES PARA EL MEJOR USO DE RECURSOS, CONSULTAS, SALAS Y HABITACIONES.

• ESTUDIOS EPIDEMIOLÓGICOS, ANÁLISIS DE RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN, PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC.

MINERÍA DE DATOS - INTRODUCCIÓN 21

INTRODUCCIÓN A LA MINERÍA DE

DATOS

APLICACIONES DE KDD PARA PROCESOS INDUSTRIALES: EXTRACCIÓN DE MODELOS SOBRE COMPORTAMIENTO

DE COMPUESTOS.

DETECCIÓN DE PIEZAS CON FALLAS. PREDICCIÓN DE FALLOS. MODELOS DE CALIDAD.

ESTIMACIÓN DE COMPOSICIONES ÓPTIMAS EN

MEZCLAS.

EXTRACCIÓN DE MODELOS DE COSTE. EXTRACCIÓN DE MODELOS DE PRODUCCIÓN. SIMULACIÓN COSTES/BENEFICIOS SEGÚN NIVELES DE

CALIDAD.

MINERÍA DE DATOS - INTRODUCCIÓN 22

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 23

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 KDD: KNOWLEDGE DISCOVERY FROM DATABASES:

DESCUBRIMIENTO DE CONOCIMIENTO DESDE BD.  FASES Y TÉCNICAS DEL KDD:

LAS DISTINTAS TÉCNICAS DE DISTINTAS DISCIPLINAS SE UTILIZAN EN DISTINTAS FASES:

SE INDICAN EN EL GRÁFICO SIGUIENTE.

MINERÍA DE DATOS - INTRODUCCIÓN 24

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

(5)

MINERÍA DE DATOS - INTRODUCCIÓN 25

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 26

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 27

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASES DEL KDD:

SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN

DE DATOS.

MINERÍA DE DATOS. EVALUACIÓN Y VALIDACIÓN. INTERPRETACIÓN Y DIFUSIÓN. ACTUALIZACIÓN Y MONITORIZACIÓN.

MINERÍA DE DATOS - INTRODUCCIÓN 28

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASES DE SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y

TRANSFORMACIÓN DE DATOS: SE DETALLARÁN MÁS ADELANTE.

MINERÍA DE DATOS - INTRODUCCIÓN 29

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASE DE MINERÍA DE DATOS (SE AMPLIARÁ MÁS ADELANTE): CARACTERÍSTICAS ESPECIALES DE LOS DATOS:

APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS

DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON

DIRECTAMENTE APLICABLES?:

• LOS DATOS RESIDEN EN EL DISCO; NO SE PUEDEN ESCANEAR MÚLTIPLES VECES.

• ALGUNAS TÉCNICAS DE MUESTREO NO SON COMPATIBLES CON ALGORITMOS NO INCREMENTALES.

• MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS). • EVIDENCIA POSITIVA.

• DATOS IMPERFECTOS...

AUNQUE ALGUNOS SE APLICAN CASI DIRECTAMENTE, EL INTERÉS EN LA INVESTIGACIÓN EN MINERÍA DE DATOS ESTÁ EN SU ADAPTACIÓN.

MINERÍA DE DATOS - INTRODUCCIÓN 30

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

PATRONES A DESCUBRIR:

UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN

EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓN QUIERE DESCUBRIR.

EL TIPO DE CONOCIMIENTO QUE SE DESEA EXTRAER VA

A MARCAR CLARAMENTE LA TÉCNICA DE MINERÍA DE DATOS A UTILIZAR.

SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE

PUEDE DISTINGUIR ENTRE:

• DIRECTED DATA MINING: SE SABE CLARAMENTE LO QUE SE BUSCA, GENERALMENTE PREDECIR UNOS CIERTOS DATOS O CLASES.

• UNDIRECTED DATA MINING: NO SE SABE LO QUE SE BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE

APAREZCA ALGO INTERESANTE!).

EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE

DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL

ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA

(6)

MINERÍA DE DATOS - INTRODUCCIÓN 31

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASE DE EVALUACIÓN Y VALIDACIÓN:

LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE

MODELOS.

PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES

NECESARIO EL USO DE CRITERIOS DE EVALUACIÓN DE

HIPÓTESIS.

MINERÍA DE DATOS - INTRODUCCIÓN 32

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

POR EJEMPLO:

1ª FASE:

• COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN UN BANCO DE EJEMPLOS INDEPENDIENTE DEL QUE SE HA UTILIZADO PARA APRENDER EL MODELO. • SE PUEDE ELEGIR EL MEJOR MODELO.

2ª FASE:

• SE PUEDE REALIZAR UNA EXPERIENCIA PILOTO CON ESE MODELO.

• POR EJEMPLO, SI EL MODELO ENCONTRADO SE QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE ENVIAR UN MAILING A UN SUBCONJUNTO DE CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO.

MINERÍA DE DATOS - INTRODUCCIÓN 33

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASE DE INTERPRETACIÓN Y DIFUSIÓN:

EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO OTRAS VECES REQUIERE UN PROCESO DE IMPLEMENTACIÓN O INTERPRETACIÓN:

EL MODELO PUEDE REQUERIR IMPLEMENTACIÓN:

• P.EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS FRAUDULENTAS.

EL MODELO ES DESCRIPTIVO Y REQUIERE INTERPRETACIÓN:

• P.EJ. UNA CARACTERIZACIÓN DE ZONAS GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS PRODUCTOS VENDIDOS.

MINERÍA DE DATOS - INTRODUCCIÓN 34

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

EL MODELO PUEDE TENER MUCHOS USUARIOS Y

NECESITA DIFUSIÓN:

• EL MODELO PUEDE REQUERIR SER EXPRESADO DE UNA MANERA COMPRENSIBLE PARA SER DISTRIBUIDO EN LA ORGANIZACIÓN.

• P.EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒ PONERLOS EN ESTANTES DISTANTES.

MINERÍA DE DATOS - INTRODUCCIÓN 35

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 FASE DE ACTUALIZACIÓN Y MONITORIZACIÓN: LOS PROCESOS DERIVAN EN UN MANTENIMIENTO:

ACTUALIZACIÓN:

• UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN CAMBIO DE CONTEXTO:

– CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN LAS FUENTES DE DATOS, ETC.

MONITORIZACIÓN:

• CONSISTE EN IR REVALIDANDO EL MODELO CON CIERTA FRECUENCIA SOBRE NUEVOS DATOS:

– EL OBJETIVO ES DETECTAR SI EL MODELO REQUIERE UNA ACTUALIZACIÓN.

PRODUCEN REALIMENTACIONES EN EL PROCESO KDD.

MINERÍA DE DATOS - INTRODUCCIÓN 36

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 TIPOLOGÍA DE TÉCNICAS DE MINERÍA DE DATOS:

LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE

SON PREDICTIVOS Y/O DESCRIPTIVOS.

UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE DATOS FUTUROS:

¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO?. ¿ES ESTA TRANSACCIÓN FRAUDULENTA?.

¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE

EL CLIENTE “X”?.

UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN

SOBRE LAS RELACIONES ENTRE LOS DATOS Y SUS CARACTERÍSTICAS; GENERA INFORMACIÓN DEL TIPO:

LOS CLIENTES QUE COMPRAN PAÑALES SUELEN

COMPRAR CERVEZA.

EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS

IMPORTANTES EN LA ENFERMEDAD “Y”.

LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN

(7)

MINERÍA DE DATOS - INTRODUCCIÓN 37

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

EJEMPLO DE MODELO PREDICTIVO:

SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL

TENIS.

SE HAN RECOGIDO DATOS DE EXPERIENCIAS

ANTERIORES:

MINERÍA DE DATOS - INTRODUCCIÓN 38

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 39

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 40

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE APRENDIZAJE DE ÁRBOLES DE DECISIÓN, SEÑALANDO

EL ATRIBUTO “PLAYTENNIS” COMO LA CLASE (OUTPUT).

EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE

MUESTRA EN EL GRÁFICO SIGUIENTE.

AHORA SE PUEDE UTILIZAR ESTE MODELO PARA PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS:

• EJ.: LA INSTANCIA ES NO:

– (OUTLOOK = SUNNY, TEMPERATURE = HOT, HUMIDITY = HIGH, WIND = STRONG).

MINERÍA DE DATOS - INTRODUCCIÓN 41

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 42

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

EJEMPLO DE MODELO DESCRIPTIVO:

SE QUIERE CATEGORIZAR LOS EMPLEADOS. SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS:

(8)

MINERÍA DE DATOS - INTRODUCCIÓN 43

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE CLUSTERING K-MEAMS.

SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL

GRÁFICO SIGUIENTE, DONDE:

• GRUPO 1: SIN HIJOS Y DE ALQUILER. POCO SINDICADOS. MUCHAS BAJAS.

• GRUPO 2: SIN HIJOS Y CON COCHE. MUY SINDICADOS. POCAS BAJAS. NORMALMENTE DE ALQUILER Y MUJERES.

• GRUPO 3: CON HIJOS, CASADOS Y CON COCHE. PROPIETARIOS. POCO SINDICADOS. HOMBRES.

MINERÍA DE DATOS - INTRODUCCIÓN 44

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

MINERÍA DE DATOS - INTRODUCCIÓN 45

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

TIPOS DE CONOCIMIENTO:

ASOCIACIONES: UNA ASOCIACIÓN ENTRE DOS

ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE DEN DOS VALORES DETERMINADOS DE CADA UNO CONJUNTAMENTE ES RELATIVAMENTE ALTA:

• EJEMPLO: EN UN SUPERMERCADO SE ANALIZA SI LOS PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN CONJUNTAMENTE.

DEPENDENCIAS: UNA DEPENDENCIA FUNCIONAL

(APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL VALOR DE OTRO. OJO! EXISTEN MUCHAS DEPENDENCIAS NADA INTERESANTES (CAUSALIDADES INVERSAS):

• EJEMPLO: QUE UN PACIENTE HAYA SIDO INGRESADO EN MATERNIDAD DETERMINA SU SEXO.

LA BÚSQUEDA DE ASOCIACIONES Y DEPENDENCIAS SE CONOCE A VECES COMO ANÁLISIS EXPLORATORIO.

MINERÍA DE DATOS - INTRODUCCIÓN 46

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

CLASIFICACIÓN: UNA CLASIFICACIÓN SE PUEDE VER

COMO EL ESCLARECIMIENTO DE UNA DEPENDENCIA, EN LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN VALOR ENTRE VARIAS CLASES, YA CONOCIDAS:

• EJEMPLO:

– SE SABE (POR UN ESTUDIO DE DEPENDENCIAS) QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS Y ASTIGMATISMO HAN DETERMINADO LOS PACIENTES PARA LOS QUE SU OPERACIÓN DE CIRUGÍA OCULAR HA SIDO SATISFACTORIA. – PODEMOS INTENTAR DETERMINAR LAS REGLAS

EXACTAS QUE CLASIFICAN UN CASO COMO POSITIVO O NEGATIVO A PARTIR DE ESOS ATRIBUTOS.

MINERÍA DE DATOS - INTRODUCCIÓN 47

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

AGRUPAMIENTO / SEGMENTACIÓN:

• EL AGRUPAMIENTO (O CLUSTERING) ES LA

DETECCIÓN DE GRUPOS DE INDIVIDUOS.

• SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE NO

SE CONOCEN NI LAS CLASES NI SU NÚMERO

(APRENDIZAJE NO SUPERVISADO).

• EL OBJETIVO ES DETERMINAR GRUPOS O RACIMOS (CLUSTERS) DIFERENCIADOS DEL RESTO.

MINERÍA DE DATOS - INTRODUCCIÓN 48

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

TENDENCIAS / REGRESIÓN: EL OBJETIVO ES PREDECIR

LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA, GENERALMENTE EL TIEMPO:

• EJEMPLO: SE INTENTA PREDECIR EL NÚMERO DE CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS, GANANCIAS, COSTES, ETC. A PARTIR DE LOS RESULTADOS DE SEMANAS, MESES O AÑOS ANTERIORES.

INFORMACIÓN DEL ESQUEMA: DESCUBRIR CLAVES

PRIMARIAS ALTERNATIVAS, R.I.

REGLAS GENERALES: PATRONES NO SE AJUSTAN A LOS

TIPOS ANTERIORES; RECIENTEMENTE LOS SISTEMAS INCORPORAN CAPACIDAD PARA ESTABLECER OTROS PATRONES MÁS GENERALES.

(9)

MINERÍA DE DATOS - INTRODUCCIÓN 49

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 TAXONOMÍA DE TÉCNICAS DE MINERÍA DE DATOS:

MINERÍA DE DATOS - INTRODUCCIÓN 50

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

 SISTEMAS DE MINERÍA DE DATOS:

MINERÍA DE DATOS - INTRODUCCIÓN 51

EL PROCESO DE KDD – TÉCNICAS DE

MINERÍA DE DATOS Y PRINCIPALES

ALGORITMOS

TIPOS DE SISTEMAS:

STANDALONE: LOS DATOS SE DEBEN EXPORTAR /

CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE DATA MINING:

• KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL LIMITED, GROUPE BULL).

ON-TOP: PUEDEN FUNCIONAR SOBRE UN SISTEMA

PROPIETARIO:

• CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE ORACLE.

EMBEDDED: PROPIETARIOS:

• ORACLE DISCOVERER, ORACLE DARWIN, IBM INTELLIGENT MINER, ETC.

EXTENSIBLE (TECNOLOGÍA PLUG-INS): PROPORCIONAN

UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO CON PLUG-INS:

• EJ. KEPLER. MINERÍA DE DATOS - INTRODUCCIÓN 52

FASE DE SELECCIÓN EN MINERÍA DE

DATOS

MINERÍA DE DATOS - INTRODUCCIÓN 53

FASE DE SELECCIÓN EN MINERÍA DE

DATOS

 LA SELECCIÓN COMPRENDE LA RECOLECCIÓN E INTEGRACIÓN DE LA INFORMACIÓN.

 LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL.

 GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR

SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE ENCUENTRA:

EN BASES DE DATOS Y OTRAS FUENTES MUY DIVERSAS:

TANTO INTERNAS COMO EXTERNAS.

MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN

PARA EL TRABAJO TRANSACCIONAL.

 EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA

FUENTE ES UNIFICADA, ACCESIBLE (INTERNA) Y DESCONECTADA DEL TRABAJO TRANSACCIONAL.

MINERÍA DE DATOS - INTRODUCCIÓN 54

FASE DE SELECCIÓN EN MINERÍA DE

DATOS

 EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS:

DEPENDE MUCHO DE LA FUENTE:

OLAP U OLTP.

DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL. ROLAP O MOLAP.

DEPENDE TAMBIÉN DEL TIPO DE USUARIO:

“PICAPEDREROS” (O “GRANJEROS”): SE DEDICAN

FUNDAMENTALMENTE A REALIZAR INFORMES PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC.

“EXPLORADORES”: ENCARGADOS DE ENCONTRAR

NUEVOS PATRONES SIGNIFICATIVOS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS.

(10)

MINERÍA DE DATOS - INTRODUCCIÓN 55

FASE DE SELECCIÓN EN MINERÍA DE

DATOS

 RECOLECCIÓN DE INFORMACIÓN EXTERNA:

APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN,

LOS ALMACENES DE DATOS PUEDEN RECOGER

INFORMACIÓN EXTERNA:

DEMOGRAFÍAS (CENSO), PÁGINAS AMARILLAS,

PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET, INFORMACIÓN DE OTRAS ORGANIZACIONES.

DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE

NEGOCIO, ORGANIZACIONES Y COLEGIOS PROFESIONALES, CATÁLOGOS, ETC.

DATOS RESUMIDOS DE ÁREAS GEOGRÁFICAS,

DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA ECONOMÍA, INFORMACIÓN DE CALENDARIOS Y CLIMATOLÓGICAS, PROGRAMACIONES TELEVISIVAS-DEPORTIVAS, CATÁSTROFES, ETC.

BD EXTERNAS COMPRADAS A OTRAS COMPAÑÍAS.

MINERÍA DE DATOS - INTRODUCCIÓN 56

FASE DE EXPLORACIÓN EN MINERÍA

DE DATOS

MINERÍA DE DATOS - INTRODUCCIÓN 57

FASE DE EXPLORACIÓN EN MINERÍA

DE DATOS

 LA EXPLORACIÓN DE LOS DATOS CONSISTE EN LA UTILIZACIÓN DE TÉCNICAS FORMALES DE ANÁLISIS EXPLORATORIO:

SE BUSCA CONOCER LA DISTRIBUCIÓN DE LOS DATOS, SU

SIMETRÍA Y NORMALIDAD Y LAS CORRELACIONES

EXISTENTES EN LA INFORMACIÓN.

 SE UTILIZA:

ANÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS. MEDIDAS DE DIAGNÓSTICO FORMAL ESTADÍSTICO:

EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA

DISTRIBUCIÓN, CONTRASTES DE ASIMETRÍA, CONTRASTES DE ALEATORIEDAD, ETC.

MINERÍA DE DATOS - INTRODUCCIÓN 58

FASE DE EXPLORACIÓN EN MINERÍA

DE DATOS

 SE DEBE REALIZAR LA COMPROBACIÓN DE LOS SUPUESTOS

SUBYACENTES EN LOS MÉTODOS MULTIVARIANTES PARA LA

MINERÍA DE DATOS; ESTOS SUPUESTOS SUELEN SER:

EL CONTRASTE DE LA NORMALIDAD DE TODAS Y C / U DE LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO.

EL TESTEO DE LA LINEALIDAD DE LAS RELACIONES ENTRE LAS VARIABLES.

LA COMPROBACIÓN DE LA HOMOCEDASTICIDAD DE LOS DATOS:

CONSISTE EN VER QUE LA VARIACIÓN DE LA VARIABLE DEPENDIENTE QUE SE INTENTA EXPLICAR A TRAVÉS DE

LAS VARIABLES INDEPENDIENTES NO SE CONCENTRA EN UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES.

MINERÍA DE DATOS - INTRODUCCIÓN 59

FASE DE EXPLORACIÓN EN MINERÍA

DE DATOS

LA COMPROBACIÓN DE LA MULTICOLINEALIDAD O EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES INDEPENDIENTES.

LA CONTRASTACIÓN DE LA AUSENCIA DE CORRELACIÓN SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓN:

CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS

ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO CON EL RESTO.

MINERÍA DE DATOS - INTRODUCCIÓN 60

FASE DE LIMPIEZA Y

(11)

MINERÍA DE DATOS - INTRODUCCIÓN 61

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 LIMPIEZA (DATA CLEANSING) Y CRIBA (SELECCIÓN) DE DATOS: SE DEBEN ELMININAR EL MAYOR NÚMERO POSIBLE DE DATOS ERRÓNEOS O INCONSISTENTES (LIMPIEZA) E IRRELEVANTES (CRIBA).

SE UTILIZAN MÉTODOS ESTADÍSTICOS CASI

EXCLUSIVAMENTE:

HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS).

SELECCIÓN DE DATOS (MUESTREO, YA SEA

VERTICALMENTE, ELIMINANDO ATRIBUTOS, U HORIZONTALMENTE, ELIMINANDO TUPLAS).

REDEFINICIÓN DE ATRIBUTOS (AGRUPACIÓN O

SEPARACIÓN).

MINERÍA DE DATOS - INTRODUCCIÓN 62

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 ACCIONES ANTE DATOS ANÓMALOS (OUTLIERS):

IGNORAR:

ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS

ANÓMALOS (P.EJ. ÁRBOLES).

FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA:

SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA

COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O POR DEBAJO).

FILTRAR LA FILA:

PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS

CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES.

MINERÍA DE DATOS - INTRODUCCIÓN 63

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

REEMPLAZAR EL VALOR:

POR EL VALOR “NULO” SI EL ALGORITMO LO TRATA BIEN

O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE ES EL OUTLIER, O POR MEDIAS. A VECES SE PUEDE

PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO

CUALQUIER TÉCNICA DE ML.

DISCRETIZAR:

TRANSFORMAR UN VALOR CONTINUO EN UNO DISCRETO

(P.EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY BAJO” SIN MAYORES PROBLEMAS.

MINERÍA DE DATOS - INTRODUCCIÓN 64

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 ACCIONES ANTE DATOS FALTANTES (MISSING VALUES):

IGNORAR:

ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS

FALTANTES (P.EJ. ÁRBOLES).

FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA

COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA BOOLEANA DICIENDO SI EL VALOR EXISTÍA O NO.

FILTRAR LA FILA:

CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS

VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES.

MINERÍA DE DATOS - INTRODUCCIÓN 65

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

REEMPLAZAR EL VALOR:

POR MEDIAS. A VECES SE PUEDE PREDECIR A PARTIR DE

OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML.

SEGMENTAR:

SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE

TIENEN DISPONIBLES. SE OBTIENEN MODELOS DIFERENTES PARA CADA SEGMENTO Y LUEGO SE COMBINAN.

MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y ESPERAR HASTA QUE LOS DATOS FALTANTES ESTÉN DISPONIBLES.

MINERÍA DE DATOS - INTRODUCCIÓN 66

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 RAZONES SOBRE DATOS FALTANTES (MISSING VALUES):

A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS

DATOS FALTANTES Y ACTUAR EN CONSECUENCIA:

ALGUNOS VALORES FALTANTES EXPRESAN

CARACTERÍSTICAS RELEVANTES:

• P.EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR EN MUCHOS CASOS UN DESEO DE QUE NO SE MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO DE DOMICILIO RECIENTE.

VALORES NO EXISTENTES:

• MUCHOS VALORES FALTANTES EXISTEN EN LA REALIDAD, PERO OTROS NO. P.EJ. EL CLIENTE QUE SE ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO DE LOS ÚLTIMOS 12 MESES.

DATOS INCOMPLETOS:

• SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO.

(12)

MINERÍA DE DATOS - INTRODUCCIÓN 67

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 TRANSFORMACIÓN DEL ESQUEMA:

ESQUEMA ORIGINAL:

VENTAJAS:

• LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE MANTIENEN (NO HAY QUE REAPRENDERLAS, NO DESPISTAN).

INCONVENIENTES:

• MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR.

MINERÍA DE DATOS - INTRODUCCIÓN 68

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

TABLA UNIVERSAL:

CUALQUIER ESQUEMA RELACIONAL SE PUEDE CONVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA TABLA UNIVERSAL:

VENTAJAS:

• MODELOS DE APRENDIZAJE MÁS SIMPLES (PROPOSICIONALES).

DESVENTAJAS:

• MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES). LA INFORMACIÓN DEL ESQUEMA SE PIERDE. MUCHAS DEPENDENCIAS FUNCIONALES SE VUELVEN A RE-DESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN.

MINERÍA DE DATOS - INTRODUCCIÓN 69

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

DESNORMALIZADO TIPO ESTRELLA O COPO DE NIEVE

(DATAMARTS):

VENTAJAS:

• SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN

COMPROBAR CON LA INFORMACIÓN DETALLADA. SE

UTILIZAN OPERADORES PROPIOS: ROLL-UP,

DRILL-DOWN, SLICING AND DICING. DESVENTAJAS:

• ORIENTADAS A EXTRAER UN TIPO DE INFORMACIÓN.

MINERÍA DE DATOS - INTRODUCCIÓN 70

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 INTERCAMBIO DE DIMENSIONES: (FILAS POR COLUMNAS):

EJEMPLO:

UNA TABLA DE CESTAS DE LA COMPRA, DONDE CADA

ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O NO.

OBJETIVO: VER SI DOS PRODUCTOS SE COMPRAN

CONJUNTAMENTE (REGLA DE ASOCIACIÓN).

ES MUY COSTOSO: HAY QUE MIRAR AL MENOS LA RAÍZ

CUADRADA DE TODAS LAS RELACIONES (CESTAS): • PUEDE HABER MILLONES EN UNA SEMANA... • SIN EMBARGO... PRODUCTOS SÓLO HAY UNOS 10.000.

SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA

SABER SI HAY ASOCIACIÓN.

MINERÍA DE DATOS - INTRODUCCIÓN 71

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

 TRANSFORMACIÓN DE LOS CAMPOS:

NUMERIZACIÓN / ETIQUETADO:

VENTAJAS:

• SE REDUCE ESPACIO: – EJ: APELLIDO ⇒⇒⇒⇒ENTERO.

• SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES.

DESVENTAJAS:

• SE NECESITA META-INFORMACIÓN PARA DISTINGUIR LOS DATOS INICIALMENTE NO NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES RELEVANTE: PRECIOS, UNIDADES, ETC.).

• A VECES SE PUEDE “SESGAR” EL MODELO (BIASING).

MINERÍA DE DATOS - INTRODUCCIÓN 72

FASE DE LIMPIEZA Y

TRANSFORMACIÓN DE DATOS

DISCRETIZACIÓN:

VENTAJAS:

• SE REDUCE ESPACIO:

– EJ. 0..10 ⇒⇒⇒⇒(PEQUEÑO, MEDIANO, GRANDE). • SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓN Y

CONSTRUIR REGLAS DISCRETAS.

DESVENTAJAS:

• UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS RESULTADOS.

Referencias

Documento similar

Para el desarrollo de esta aplicación sobre el modelo de caracterización e interpretación de descripciones conceptuales en dominios poco estructurados (CIADEC) se deben tener

En este trabajo, se implementará un proceso de extracción, transformación y carga a los datos ubicados en una base de datos que pertenece a la corporación CIMEX; para la creación

Por tanto, puede definirse como la Situación Problemática de la investigación la necesidad que hoy presenta el GSIG de encontrar un mecanismo factible para que

Sobre este conjunto de datos aplicaremos diferentes técnicas de machine learning, tanto del campo de la clasificación como del campo de la minería de reglas de asociación, que serán

TITULO DE LA INVESTIGACIÓN: Aplicación de técnicas de minería de datos para medir la calidad del servicio Educativo y lectoescritura en estudiantes de primaria

Las RNA para predecir el riesgo de bancarrota empresarial dentro del sector manufac- turero y los Modelos Aditivos Generalizados como complemento del desarrollo de las Redes

Se probó el modelo predictivo en retrospectiva con información histórica y estimando resultados futuros, con la información generada en el campus objeto del

El Web Scraping es una técnica muy utilizada en la minería de datos y Big Data (Manq, 2017); y en este caso tampoco es la excepción, por lo cual se podría tomar