MINERÍA DE DATOS - INTRODUCCIÓN 1
MINERÍA DE DATOS
-INTRODUCCIÓN
INTRODUCCIÓNA A LA MINERÍA DE DATOS.
EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE DATOS Y
PRINCIPALES ALGORITMOS.
FASE DE SELECCIÓN EN MINERÍA DE DATOS. FASE DE EXPLORACIÓN EN MINERÍA DE DATOS. FASE DE LIMPIEZA Y TRANSFORMACIÓN DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN 2
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MINERÍA DE DATOS - INTRODUCCIÓN 3
INTRODUCCIÓN A LA MINERÍA DE
DATOS
EL OBJETIVO ES EL ANÁLISIS DE GRANDES VOLÚMENES DE
DATOS PARA LA OBTENCIÓN DE MODELOS Y PATRONES
PREDICTIVOS O DESCRIPTIVOS:
SE BUSCA EL DESCUBRIMIENTO DE CONOCIMIENTO EN LAS BASES DE DATOS.
SE EMPLEAN TÉCNICAS DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICAS.
MINERÍA DE DATOS - INTRODUCCIÓN 4
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MINERÍA DE DATOS - INTRODUCCIÓN 5
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MOTIVACIÓN:
NUEVAS NECESIDADES DEL ANÁLISIS DE GRANDES
VOLÚMENES DE DATOS.
EL AUMENTO DEL VOLUMEN Y VARIEDAD DE
INFORMACIÓN QUE SE ENCUENTRA INFORMATIZADA EN
BASES DE DATOS DIGITALES HA CRECIDO ESPECTACULARMENTE EN LA ÚLTIMA DÉCADA.
GRAN PARTE DE ESTA INFORMACIÓN ES HISTÓRICA, ES
DECIR, REPRESENTA TRANSACCIONES O SITUACIONES QUE SE HAN PRODUCIDO.
APARTE DE SU FUNCIÓN DE “MEMORIA DE LA ORGANIZACIÓN”, LA INFORMACIÓN HISTÓRICA ES ÚTIL PARA PREDECIR LA INFORMACIÓN FUTURA.
MINERÍA DE DATOS - INTRODUCCIÓN 6
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LA MAYORÍA DE DECISIONES DE EMPRESAS, ORGANIZACIONES E INSTITUCIONES SE BASAN TAMBIÉN EN INFORMACIÓN DE EXPERIENCIAS PASADAS EXTRAÍDAS DE FUENTES MUY DIVERSAS.
LAS DECISIONES COLECTIVAS SUELEN TENER
CONSECUENCIAS MUCHO MÁS GRAVES, ESPECIALMENTE ECONÓMICAS, Y, RECIENTEMENTE, SE DEBEN BASAR EN
VOLÚMENES DE DATOS QUE DESBORDAN LA CAPACIDAD HUMANA.
EL ÁREA DE LA EXTRACCIÓN (SEMI-)AUTOMÁTICA DE CONOCIMIENTO DE BASES DE DATOS HA ADQUIRIDO
RECIENTEMENTE UNA IMPORTANCIA CIENTÍFICA Y ECONÓMICA INUSUAL.
MINERÍA DE DATOS - INTRODUCCIÓN 7
INTRODUCCIÓN A LA MINERÍA DE
DATOS
TAMAÑO DE DATOS POCO HABITUAL PARA ALGORITMOS
CLÁSICOS:
NÚMERO DE REGISTROS (EJEMPLOS) MUY GRANDE (108
-1012BYTES).
DATOS ALTAMENTE DIMENSIONALES (Nº DE COLUMNAS /
ATRIBUTOS): 102-104.
EL USUARIO FINAL NO ES UN EXPERTO EN APRENDIZAJE
AUTOMÁTICO NI EN ESTADÍSTICA.
EL USUARIO NO PUEDE PERDER MÁS TIEMPO ANALIZANDO
LOS DATOS:
INDUSTRIA: VENTAJAS COMPETITIVAS, DECISIONES MÁS
EFECTIVAS.
CIENCIA: DATOS NUNCA ANALIZADOS, BANCOS NO
CRUZADOS, ETC.
PERSONAL: “INFORMATION OVERLOAD”...
MINERÍA DE DATOS - INTRODUCCIÓN 8
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LOS SISTEMAS CLÁSICOS DE ESTADÍSTICA SON DIFÍCILES
DE USAR Y NO ESCALAN AL NÚMERO DE DATOS TÍPICOS EN BD.
APARECE EL “DESCUBRIMIENTO DE CONOCIMIENTO A PARTIR DE BASES DE DATOS”:
KDD: KNOWLEDGE DISCOVERY FROM DATABASES.
MINERÍA DE DATOS - INTRODUCCIÓN 9
INTRODUCCIÓN A LA MINERÍA DE
DATOS
RELACIÓN DEL DM CON OTRAS DISCIPLINAS:
KDD: “PROCESO NO TRIVIAL DE IDENTIFICAR PATRONES
VÁLIDOS, NOVEDOSOS, POTENCIALMENTE ÚTILES Y EN ÚLTIMA INSTANCIA COMPRENSIBLES A PARTIR DE LOS DATOS”:
FAYYAD, 1996.
DIFERENCIA CLARA CON MÉTODOS ESTADÍSTICOS:
LA ESTADÍSTICA SE UTILIZA PARA VALIDAR O
PARAMETRIZAR UN MODELO SUGERIDO Y
PREEXISTENTE, NO PARA GENERARLO. DIFERENCIA SUTIL:
EL “ANÁLISIS INTELIGENTE DE DATOS” (IDA: INTELLIGENT DATA ANALYSIS) QUE CORRESPONDÍA
CON EL USO DE TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN EL ANÁLISIS DE LOS DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN 10
INTRODUCCIÓN A LA MINERÍA DE
DATOS
KDD NACE COMO INTERFAZ Y SE NUTRE DE DIFERENTES
DISCIPLINAS:
ESTADÍSTICA.
SISTEMAS DE INFORMACIÓN / BASES DE DATOS. APRENDIZAJE AUTOMÁTICO / IA.
VISUALIZACIÓN DE DATOS.
COMPUTACIÓN PARALELA / DISTRIBUIDA.
INTERFACES DE LENGUAJE NATURAL A BASES DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN 11
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LA MINERÍA O PROSPECCIÓN DE DATOS (DM) NO ES MÁS QUE
UNA FASE DEL KDD:
FASE QUE INTEGRA LOS MÉTODOS DE APRENDIZAJE Y
ESTADÍSTICOS PARA OBTENER HIPÓTESIS DE PATRONES Y MODELOS.
AL SER LA FASE DE GENERACIÓN DE HIPÓTESIS,
VULGARMENTE SE ASIMILA KDD CON DM.
ADEMÁS, LAS CONNOTACIONES DE AVENTURA Y DE DINERO
FÁCIL DEL TÉRMINO “MINERÍA DE DATOS” HAN HECHO QUE ÉSTE SE USE COMO IDENTIFICADOR DEL ÁREA.
MINERÍA DE DATOS - INTRODUCCIÓN 12
INTRODUCCIÓN A LA MINERÍA DE
DATOS
LA MINERÍA DE DATOS NO ES UNA EXTENSIÓN DE LOS SISTEMAS DE INFORMES INTELIGENTES O SISTEMAS OLAP (ON-LINE ANALYTICAL PROCESSING).
LA MINERÍA DE DATOS ASPIRA A MÁS.
OTRAS HERRAMIENTAS, P.EJ. CONSULTAS SOFISTICADAS O
ANÁLISIS ESTADÍSTICO, PUEDEN RESPONDER A PREGUNTAS COMO:
“¿HAN SUBIDO LAS VENTAS DEL PRODUCTO X EN JUNIO?”. “¿LAS VENTAS DEL PRODUCTO X BAJAN CUANDO
PROMOCIONAMOS EL PRODUCTO Y?”.
PERO SÓLO CON TÉCNICAS DE MINERÍA DE DATOS
PODREMOS RESPONDER A PREGUNTAS DEL ESTILO:
“¿QUÉ FACTORES INFLUYEN EN LAS VENTAS DEL
PRODUCTO X?”.
“¿CUÁL SERÁ EL PRODUCTO MÁS VENDIDO SI ABRIMOS
MINERÍA DE DATOS - INTRODUCCIÓN 13
INTRODUCCIÓN A LA MINERÍA DE
DATOS
VISIÓN CON LAS HERRAMIENTAS TRADICIONALES:
EL ANALISTA EMPIEZA CON UNA PREGUNTA, UNA
SUPOSICIÓN O SIMPLEMENTE UNA INTUICIÓN Y EXPLORA LOS DATOS Y CONSTRUYE UN MODELO. EL ANALISTA
PROPONE EL MODELO. VISIÓN CON LA MINERÍA DE DATOS:
AUNQUE EL ANALISTA NO PIERDE LA POSIBILIDAD DE
PROPONER MODELOS, EL SISTEMA ENCUENTRA Y
SUGIERE MODELOS. VENTAJAS:
GENERAR UN MODELO REQUIERE MENOS ESFUERZO
MANUAL Y PERMITE EVALUAR CANTIDADES INGENTES DE DATOS.
SE PUEDEN EVALUAR MUCHOS MODELOS GENERADOS
AUTOMÁTICAMENTE, Y ESTO AUMENTA LA PROBABILIDAD DE ENCONTRAR UN BUEN MODELO.
EL ANALISTA NECESITA MENOS FORMACIÓN SOBRE
CONSTRUCCIÓN DE MODELOS Y MENOS EXPERIENCIA.
MINERÍA DE DATOS - INTRODUCCIÓN 14
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MINERÍA DE DATOS - INTRODUCCIÓN 15
INTRODUCCIÓN A LA MINERÍA DE
DATOS
ÁREAS DE APLICACIÓN: TOMA DE DECISIONES:
BANCA – FINANZAS - SEGUROS, MÁRKETING, POLÍTICAS
SANITARIAS / DEMOGRÁFICAS, ETC.
PROCESOS INDUSTRIALES:
COMPONENTES QUÍMICOS, COMPUESTOS, MEZCLAS,
ESMALTES, PROCESOS, ETC.
INVESTIGACIÓN CIENTÍFICA:
MEDICINA, ASTRONOMÍA, METEOROLOGÍA, PSICOLOGÍA,
ETC.
AQUÍ LA EFICIENCIA NO ES TAN IMPORTANTE.
MINERÍA DE DATOS - INTRODUCCIÓN 16
INTRODUCCIÓN A LA MINERÍA DE
DATOS
SOPORTE AL DISEÑO DE BASES DE DATOS. REVERSE ENGINEERING:
DADOS UNA BASE DE DATOS, DESNORMALIZARLA PARA
QUE LUEGO EL SISTEMA LA NORMALICE.
MEJORA DE CALIDAD DE DATOS. MEJORA DE CONSULTAS:
SI SE DESCUBREN DEPENDENCIAS FUNCIONALES NUEVAS
U OTRAS CONDICIONES EVITABLES.
MINERÍA DE DATOS - INTRODUCCIÓN 17
INTRODUCCIÓN A LA MINERÍA DE
DATOS
ÁREAS DE APLICACIÓN – PROBLEMAS TIPO:
APLICACIONES DE KDD PARA TOMA DE DECISIONES, SEGÚN DILLY – 1996:
COMERCIO / MARKETING:
• IDENTIFICAR PATRONES DE COMPRA DE LOS CLIENTES.
• BUSCAR ASOCIACIONES ENTRE CLIENTES Y CARACTERÍSTICAS DEMOGRÁFICAS.
• PREDECIR RESPUESTA A CAMPAÑAS DE MAILING. • ANÁLISIS DE CESTAS DE LA COMPRA.
MINERÍA DE DATOS - INTRODUCCIÓN 18
INTRODUCCIÓN A LA MINERÍA DE
DATOS
BANCA:
• DETECTAR PATRONES DE USO FRAUDULENTO DE TARJETAS DE CRÉDITO.
• IDENTIFICAR CLIENTES LEALES.
• PREDECIR CLIENTES CON PROBABILIDAD DE CAMBIAR SU AFILIACIÓN.
• DETERMINAR GASTO EN TARJETA DE CRÉDITO POR GRUPOS.
• ENCONTRAR CORRELACIONES ENTRE INDICADORES FINANCIEROS.
• IDENTIFICAR REGLAS DE MERCADO DE VALORES A PARTIR DE HISTÓRICOS.
MINERÍA DE DATOS - INTRODUCCIÓN 19
INTRODUCCIÓN A LA MINERÍA DE
DATOS
SEGUROS Y SALUD PRIVADA:
• ANÁLISIS DE PROCEDIMIENTOS MÉDICOS SOLICITADOS CONJUNTAMENTE.
• PREDECIR QUÉ CLIENTES COMPRAN NUEVAS PÓLIZAS.
• IDENTIFICAR PATRONES DE COMPORTAMIENTO PARA CLIENTES CON RIESGO.
• IDENTIFICAR COMPORTAMIENTO FRAUDULENTO.
TRANSPORTES:
• DETERMINAR LA PLANIFICACIÓN DE LA DISTRIBUCIÓN ENTRE TIENDAS.
• ANALIZAR PATRONES DE CARGA.
MINERÍA DE DATOS - INTRODUCCIÓN 20
INTRODUCCIÓN A LA MINERÍA DE
DATOS
MEDICINA:
• IDENTIFICACIÓN DE TERAPIAS MÉDICAS SATISFACTORIAS PARA DIFERENTES ENFERMEDADES. • ASOCIACIÓN DE SÍNTOMAS Y CLASIFICACIÓN
DIFERENCIAL DE PATOLOGÍAS.
• ESTUDIO DE FACTORES (GENÉTICOS, PRECEDENTES, HÁBITOS, ALIMENTICIOS, ETC.) DE RIESGO / SALUD EN DISTINTAS PATOLOGÍAS.
• SEGMENTACIÓN DE PACIENTES PARA UNA ATENCIÓN MÁS INTELIGENTE SEGÚN SU GRUPO. • PREDICCIONES TEMPORALES DE LOS CENTROS
ASISTENCIALES PARA EL MEJOR USO DE RECURSOS, CONSULTAS, SALAS Y HABITACIONES.
• ESTUDIOS EPIDEMIOLÓGICOS, ANÁLISIS DE RENDIMIENTOS DE CAMPAÑAS DE INFORMACIÓN, PREVENCIÓN, SUSTITUCIÓN DE FÁRMACOS, ETC.
MINERÍA DE DATOS - INTRODUCCIÓN 21
INTRODUCCIÓN A LA MINERÍA DE
DATOS
APLICACIONES DE KDD PARA PROCESOS INDUSTRIALES: EXTRACCIÓN DE MODELOS SOBRE COMPORTAMIENTO
DE COMPUESTOS.
DETECCIÓN DE PIEZAS CON FALLAS. PREDICCIÓN DE FALLOS. MODELOS DE CALIDAD.
ESTIMACIÓN DE COMPOSICIONES ÓPTIMAS EN
MEZCLAS.
EXTRACCIÓN DE MODELOS DE COSTE. EXTRACCIÓN DE MODELOS DE PRODUCCIÓN. SIMULACIÓN COSTES/BENEFICIOS SEGÚN NIVELES DE
CALIDAD.
MINERÍA DE DATOS - INTRODUCCIÓN 22
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 23
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
KDD: KNOWLEDGE DISCOVERY FROM DATABASES:
DESCUBRIMIENTO DE CONOCIMIENTO DESDE BD. FASES Y TÉCNICAS DEL KDD:
LAS DISTINTAS TÉCNICAS DE DISTINTAS DISCIPLINAS SE UTILIZAN EN DISTINTAS FASES:
SE INDICAN EN EL GRÁFICO SIGUIENTE.
MINERÍA DE DATOS - INTRODUCCIÓN 24
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 25
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 26
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 27
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASES DEL KDD:
SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y TRANSFORMACIÓN
DE DATOS.
MINERÍA DE DATOS. EVALUACIÓN Y VALIDACIÓN. INTERPRETACIÓN Y DIFUSIÓN. ACTUALIZACIÓN Y MONITORIZACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN 28
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASES DE SELECCIÓN, EXPLORACIÓN, LIMPIEZA Y
TRANSFORMACIÓN DE DATOS: SE DETALLARÁN MÁS ADELANTE.
MINERÍA DE DATOS - INTRODUCCIÓN 29
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE MINERÍA DE DATOS (SE AMPLIARÁ MÁS ADELANTE): CARACTERÍSTICAS ESPECIALES DE LOS DATOS:
APARTE DEL GRAN VOLUMEN, ¿POR QUÉ LAS TÉCNICAS
DE APRENDIZAJE AUTOMÁTICO Y ESTADÍSTICA NO SON
DIRECTAMENTE APLICABLES?:
• LOS DATOS RESIDEN EN EL DISCO; NO SE PUEDEN ESCANEAR MÚLTIPLES VECES.
• ALGUNAS TÉCNICAS DE MUESTREO NO SON COMPATIBLES CON ALGORITMOS NO INCREMENTALES.
• MUY ALTA DIMENSIONALIDAD (MUCHOS CAMPOS). • EVIDENCIA POSITIVA.
• DATOS IMPERFECTOS...
AUNQUE ALGUNOS SE APLICAN CASI DIRECTAMENTE, EL INTERÉS EN LA INVESTIGACIÓN EN MINERÍA DE DATOS ESTÁ EN SU ADAPTACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN 30
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
PATRONES A DESCUBRIR:
UNA VEZ RECOGIDOS LOS DATOS DE INTERÉS, UN
EXPLORADOR PUEDE DECIDIR QUÉ TIPO DE PATRÓN QUIERE DESCUBRIR.
EL TIPO DE CONOCIMIENTO QUE SE DESEA EXTRAER VA
A MARCAR CLARAMENTE LA TÉCNICA DE MINERÍA DE DATOS A UTILIZAR.
SEGÚN COMO SEA LA BÚSQUEDA DEL CONOCIMIENTO SE
PUEDE DISTINGUIR ENTRE:
• DIRECTED DATA MINING: SE SABE CLARAMENTE LO QUE SE BUSCA, GENERALMENTE PREDECIR UNOS CIERTOS DATOS O CLASES.
• UNDIRECTED DATA MINING: NO SE SABE LO QUE SE BUSCA, SE TRABAJA CON LOS DATOS (¡HASTA QUE
APAREZCA ALGO INTERESANTE!).
EN EL PRIMER CASO, ALGUNOS SISTEMAS DE MINERÍA DE
DATOS SE ENCARGAN GENERALMENTE DE ELEGIR EL
ALGORITMO MÁS IDÓNEO ENTRE LOS DISPONIBLES PARA
MINERÍA DE DATOS - INTRODUCCIÓN 31
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE EVALUACIÓN Y VALIDACIÓN:
LA FASE ANTERIOR PRODUCE UNA O MÁS HIPÓTESIS DE
MODELOS.
PARA SELECCIONAR Y VALIDAR ESTOS MODELOS ES
NECESARIO EL USO DE CRITERIOS DE EVALUACIÓN DE
HIPÓTESIS.
MINERÍA DE DATOS - INTRODUCCIÓN 32
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
POR EJEMPLO:
1ª FASE:
• COMPROBACIÓN DE LA PRECISIÓN DEL MODELO EN UN BANCO DE EJEMPLOS INDEPENDIENTE DEL QUE SE HA UTILIZADO PARA APRENDER EL MODELO. • SE PUEDE ELEGIR EL MEJOR MODELO.
2ª FASE:
• SE PUEDE REALIZAR UNA EXPERIENCIA PILOTO CON ESE MODELO.
• POR EJEMPLO, SI EL MODELO ENCONTRADO SE QUERÍA UTILIZAR PARA PREDECIR LA RESPUESTA DE LOS CLIENTES A UN NUEVO PRODUCTO, SE PUEDE ENVIAR UN MAILING A UN SUBCONJUNTO DE CLIENTES Y EVALUAR LA FIABILIDAD DEL MODELO.
MINERÍA DE DATOS - INTRODUCCIÓN 33
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE INTERPRETACIÓN Y DIFUSIÓN:
EL DESPLIEGUE DEL MODELO A VECES ES TRIVIAL PERO OTRAS VECES REQUIERE UN PROCESO DE IMPLEMENTACIÓN O INTERPRETACIÓN:
EL MODELO PUEDE REQUERIR IMPLEMENTACIÓN:
• P.EJ. TIEMPO REAL DE DETECCIÓN DE TARJETAS FRAUDULENTAS.
EL MODELO ES DESCRIPTIVO Y REQUIERE INTERPRETACIÓN:
• P.EJ. UNA CARACTERIZACIÓN DE ZONAS GEOGRÁFICAS SEGÚN LA DISTRIBUCIÓN DE LOS PRODUCTOS VENDIDOS.
MINERÍA DE DATOS - INTRODUCCIÓN 34
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EL MODELO PUEDE TENER MUCHOS USUARIOS Y
NECESITA DIFUSIÓN:
• EL MODELO PUEDE REQUERIR SER EXPRESADO DE UNA MANERA COMPRENSIBLE PARA SER DISTRIBUIDO EN LA ORGANIZACIÓN.
• P.EJ. LAS CERVEZAS Y LOS PRODUCTOS CONGELADOS SE COMPRAN FRECUENTEMENTE EN CONJUNTO ⇒ PONERLOS EN ESTANTES DISTANTES.
MINERÍA DE DATOS - INTRODUCCIÓN 35
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
FASE DE ACTUALIZACIÓN Y MONITORIZACIÓN: LOS PROCESOS DERIVAN EN UN MANTENIMIENTO:
ACTUALIZACIÓN:
• UN MODELO VÁLIDO PUEDE DEJAR DE SERLO POR UN CAMBIO DE CONTEXTO:
– CAMBIOS ECONÓMICOS, EN LA COMPETENCIA, EN LAS FUENTES DE DATOS, ETC.
MONITORIZACIÓN:
• CONSISTE EN IR REVALIDANDO EL MODELO CON CIERTA FRECUENCIA SOBRE NUEVOS DATOS:
– EL OBJETIVO ES DETECTAR SI EL MODELO REQUIERE UNA ACTUALIZACIÓN.
PRODUCEN REALIMENTACIONES EN EL PROCESO KDD.
MINERÍA DE DATOS - INTRODUCCIÓN 36
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TIPOLOGÍA DE TÉCNICAS DE MINERÍA DE DATOS:
LAS TÉCNICAS DE MINERÍA DE DATOS CREAN MODELOS QUE
SON PREDICTIVOS Y/O DESCRIPTIVOS.
UN MODELO PREDICTIVO RESPONDE PREGUNTAS SOBRE DATOS FUTUROS:
¿CUÁLES SERÁN LAS VENTAS EL AÑO PRÓXIMO?. ¿ES ESTA TRANSACCIÓN FRAUDULENTA?.
¿QUÉ TIPO DE SEGURO ES MÁS PROBABLE QUE CONTRATE
EL CLIENTE “X”?.
UN MODELO DESCRIPTIVO PROPORCIONA INFORMACIÓN
SOBRE LAS RELACIONES ENTRE LOS DATOS Y SUS CARACTERÍSTICAS; GENERA INFORMACIÓN DEL TIPO:
LOS CLIENTES QUE COMPRAN PAÑALES SUELEN
COMPRAR CERVEZA.
EL TABACO Y EL ALCOHOL SON LOS FACTORES MÁS
IMPORTANTES EN LA ENFERMEDAD “Y”.
LOS CLIENTES SIN TELEVISIÓN Y CON BICICLETA TIENEN
MINERÍA DE DATOS - INTRODUCCIÓN 37
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EJEMPLO DE MODELO PREDICTIVO:
SE QUIERE SABER SI JUGAR O NO JUGAR ESTA TARDE AL
TENIS.
SE HAN RECOGIDO DATOS DE EXPERIENCIAS
ANTERIORES:
MINERÍA DE DATOS - INTRODUCCIÓN 38
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 39
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 40
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE APRENDIZAJE DE ÁRBOLES DE DECISIÓN, SEÑALANDO
EL ATRIBUTO “PLAYTENNIS” COMO LA CLASE (OUTPUT).
EL RESULTADO DEL ALGORITMO ES EL MODELO QUE SE
MUESTRA EN EL GRÁFICO SIGUIENTE.
AHORA SE PUEDE UTILIZAR ESTE MODELO PARA PREDECIR SI ESTA TARDE JUGAMOS O NO AL TENIS:
• EJ.: LA INSTANCIA ES NO:
– (OUTLOOK = SUNNY, TEMPERATURE = HOT, HUMIDITY = HIGH, WIND = STRONG).
MINERÍA DE DATOS - INTRODUCCIÓN 41
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 42
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
EJEMPLO DE MODELO DESCRIPTIVO:
SE QUIERE CATEGORIZAR LOS EMPLEADOS. SE TIENE LOS SIGUIENTES DATOS DE LOS EMPLEADOS:
MINERÍA DE DATOS - INTRODUCCIÓN 43
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
SE PASAN ESTOS EJEMPLOS A UN ALGORITMO DE CLUSTERING K-MEAMS.
SE CREAN TRES CLUSTERS, CON LA DESCRIPCIÓN DEL
GRÁFICO SIGUIENTE, DONDE:
• GRUPO 1: SIN HIJOS Y DE ALQUILER. POCO SINDICADOS. MUCHAS BAJAS.
• GRUPO 2: SIN HIJOS Y CON COCHE. MUY SINDICADOS. POCAS BAJAS. NORMALMENTE DE ALQUILER Y MUJERES.
• GRUPO 3: CON HIJOS, CASADOS Y CON COCHE. PROPIETARIOS. POCO SINDICADOS. HOMBRES.
MINERÍA DE DATOS - INTRODUCCIÓN 44
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
MINERÍA DE DATOS - INTRODUCCIÓN 45
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TIPOS DE CONOCIMIENTO:
ASOCIACIONES: UNA ASOCIACIÓN ENTRE DOS
ATRIBUTOS OCURRE CUANDO LA FRECUENCIA DE QUE SE DEN DOS VALORES DETERMINADOS DE CADA UNO CONJUNTAMENTE ES RELATIVAMENTE ALTA:
• EJEMPLO: EN UN SUPERMERCADO SE ANALIZA SI LOS PAÑALES Y LOS POTITOS DE BEBÉ SE COMPRAN CONJUNTAMENTE.
DEPENDENCIAS: UNA DEPENDENCIA FUNCIONAL
(APROXIMADA O ABSOLUTA) ES UN PATRÓN EN EL QUE SE ESTABLECE QUE UNO O MÁS ATRIBUTOS DETERMINAN EL VALOR DE OTRO. OJO! EXISTEN MUCHAS DEPENDENCIAS NADA INTERESANTES (CAUSALIDADES INVERSAS):
• EJEMPLO: QUE UN PACIENTE HAYA SIDO INGRESADO EN MATERNIDAD DETERMINA SU SEXO.
LA BÚSQUEDA DE ASOCIACIONES Y DEPENDENCIAS SE CONOCE A VECES COMO ANÁLISIS EXPLORATORIO.
MINERÍA DE DATOS - INTRODUCCIÓN 46
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
CLASIFICACIÓN: UNA CLASIFICACIÓN SE PUEDE VER
COMO EL ESCLARECIMIENTO DE UNA DEPENDENCIA, EN LA QUE EL ATRIBUTO DEPENDIENTE PUEDE TOMAR UN VALOR ENTRE VARIAS CLASES, YA CONOCIDAS:
• EJEMPLO:
– SE SABE (POR UN ESTUDIO DE DEPENDENCIAS) QUE LOS ATRIBUTOS EDAD, NÚMERO DE MIOPÍAS Y ASTIGMATISMO HAN DETERMINADO LOS PACIENTES PARA LOS QUE SU OPERACIÓN DE CIRUGÍA OCULAR HA SIDO SATISFACTORIA. – PODEMOS INTENTAR DETERMINAR LAS REGLAS
EXACTAS QUE CLASIFICAN UN CASO COMO POSITIVO O NEGATIVO A PARTIR DE ESOS ATRIBUTOS.
MINERÍA DE DATOS - INTRODUCCIÓN 47
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
AGRUPAMIENTO / SEGMENTACIÓN:
• EL AGRUPAMIENTO (O CLUSTERING) ES LA
DETECCIÓN DE GRUPOS DE INDIVIDUOS.
• SE DIFERENCIA DE LA CLASIFICACIÓN EN EL QUE NO
SE CONOCEN NI LAS CLASES NI SU NÚMERO
(APRENDIZAJE NO SUPERVISADO).
• EL OBJETIVO ES DETERMINAR GRUPOS O RACIMOS (CLUSTERS) DIFERENCIADOS DEL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN 48
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TENDENCIAS / REGRESIÓN: EL OBJETIVO ES PREDECIR
LOS VALORES DE UNA VARIABLE CONTINUA A PARTIR DE LA EVOLUCIÓN SOBRE OTRA VARIABLE CONTINUA, GENERALMENTE EL TIEMPO:
• EJEMPLO: SE INTENTA PREDECIR EL NÚMERO DE CLIENTES O PACIENTES, LOS INGRESOS, LLAMADAS, GANANCIAS, COSTES, ETC. A PARTIR DE LOS RESULTADOS DE SEMANAS, MESES O AÑOS ANTERIORES.
INFORMACIÓN DEL ESQUEMA: DESCUBRIR CLAVES
PRIMARIAS ALTERNATIVAS, R.I.
REGLAS GENERALES: PATRONES NO SE AJUSTAN A LOS
TIPOS ANTERIORES; RECIENTEMENTE LOS SISTEMAS INCORPORAN CAPACIDAD PARA ESTABLECER OTROS PATRONES MÁS GENERALES.
MINERÍA DE DATOS - INTRODUCCIÓN 49
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TAXONOMÍA DE TÉCNICAS DE MINERÍA DE DATOS:
MINERÍA DE DATOS - INTRODUCCIÓN 50
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
SISTEMAS DE MINERÍA DE DATOS:
MINERÍA DE DATOS - INTRODUCCIÓN 51
EL PROCESO DE KDD – TÉCNICAS DE
MINERÍA DE DATOS Y PRINCIPALES
ALGORITMOS
TIPOS DE SISTEMAS:
STANDALONE: LOS DATOS SE DEBEN EXPORTAR /
CONVERTIR AL FORMATO INTERNO DEL SISTEMA DE DATA MINING:
• KNOWLEDGE SEEKER IV (ANGOSS INTERNATIONAL LIMITED, GROUPE BULL).
ON-TOP: PUEDEN FUNCIONAR SOBRE UN SISTEMA
PROPIETARIO:
• CLEMENTINE SOBRE ODBC, MICROSTRATEGY SOBRE ORACLE.
EMBEDDED: PROPIETARIOS:
• ORACLE DISCOVERER, ORACLE DARWIN, IBM INTELLIGENT MINER, ETC.
EXTENSIBLE (TECNOLOGÍA PLUG-INS): PROPORCIONAN
UNAS HERRAMIENTAS MÍNIMAS DE INTERFAZ CON LOS DATOS, ESTADÍSTICAS Y VISUALIZACIÓN, Y LOS ALGORITMOS DE APRENDIZAJE SE PUEDEN IR AÑADIENDO CON PLUG-INS:
• EJ. KEPLER. MINERÍA DE DATOS - INTRODUCCIÓN 52
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
MINERÍA DE DATOS - INTRODUCCIÓN 53
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
LA SELECCIÓN COMPRENDE LA RECOLECCIÓN E INTEGRACIÓN DE LA INFORMACIÓN.
LAS PRIMERAS FASES DEL KDD DETERMINAN QUE LAS FASES SUCESIVAS SEAN CAPACES DE EXTRAER CONOCIMIENTO VÁLIDO Y ÚTIL A PARTIR DE LA INFORMACIÓN ORIGINAL.
GENERALMENTE, LA INFORMACIÓN QUE SE QUIERE INVESTIGAR
SOBRE UN CIERTO DOMINIO DE LA ORGANIZACIÓN SE ENCUENTRA:
EN BASES DE DATOS Y OTRAS FUENTES MUY DIVERSAS:
TANTO INTERNAS COMO EXTERNAS.
MUCHAS DE ESTAS FUENTES SON LAS QUE SE UTILIZAN
PARA EL TRABAJO TRANSACCIONAL.
EL ANÁLISIS POSTERIOR SERÁ MUCHO MÁS SENCILLO SI LA
FUENTE ES UNIFICADA, ACCESIBLE (INTERNA) Y DESCONECTADA DEL TRABAJO TRANSACCIONAL.
MINERÍA DE DATOS - INTRODUCCIÓN 54
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
EL PROCESO SUBSIGUIENTE DE MINERÍA DE DATOS:
DEPENDE MUCHO DE LA FUENTE:
OLAP U OLTP.
DATAWAREHOUSE O COPIA CON EL ESQUEMA ORIGINAL. ROLAP O MOLAP.
DEPENDE TAMBIÉN DEL TIPO DE USUARIO:
“PICAPEDREROS” (O “GRANJEROS”): SE DEDICAN
FUNDAMENTALMENTE A REALIZAR INFORMES PERIÓDICOS, VER LA EVOLUCIÓN DE DETERMINADOS PARÁMETROS, CONTROLAR VALORES ANÓMALOS, ETC.
“EXPLORADORES”: ENCARGADOS DE ENCONTRAR
NUEVOS PATRONES SIGNIFICATIVOS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS.
MINERÍA DE DATOS - INTRODUCCIÓN 55
FASE DE SELECCIÓN EN MINERÍA DE
DATOS
RECOLECCIÓN DE INFORMACIÓN EXTERNA:
APARTE DE INFORMACIÓN INTERNA DE LA ORGANIZACIÓN,
LOS ALMACENES DE DATOS PUEDEN RECOGER
INFORMACIÓN EXTERNA:
DEMOGRAFÍAS (CENSO), PÁGINAS AMARILLAS,
PSICOGRAFÍAS (PERFILES POR ZONAS), USO DE INTERNET, INFORMACIÓN DE OTRAS ORGANIZACIONES.
DATOS COMPARTIDOS EN UNA INDUSTRIA O ÁREA DE
NEGOCIO, ORGANIZACIONES Y COLEGIOS PROFESIONALES, CATÁLOGOS, ETC.
DATOS RESUMIDOS DE ÁREAS GEOGRÁFICAS,
DISTRIBUCIÓN DE LA COMPETENCIA, EVOLUCIÓN DE LA ECONOMÍA, INFORMACIÓN DE CALENDARIOS Y CLIMATOLÓGICAS, PROGRAMACIONES TELEVISIVAS-DEPORTIVAS, CATÁSTROFES, ETC.
BD EXTERNAS COMPRADAS A OTRAS COMPAÑÍAS.
MINERÍA DE DATOS - INTRODUCCIÓN 56
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
MINERÍA DE DATOS - INTRODUCCIÓN 57
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
LA EXPLORACIÓN DE LOS DATOS CONSISTE EN LA UTILIZACIÓN DE TÉCNICAS FORMALES DE ANÁLISIS EXPLORATORIO:
SE BUSCA CONOCER LA DISTRIBUCIÓN DE LOS DATOS, SU
SIMETRÍA Y NORMALIDAD Y LAS CORRELACIONES
EXISTENTES EN LA INFORMACIÓN.
SE UTILIZA:
ANÁLISIS EXPLORATORIO Y GRÁFICO DE LOS DATOS. MEDIDAS DE DIAGNÓSTICO FORMAL ESTADÍSTICO:
EJ.: CONTRASTES DE AJUSTES DE LOS DATOS A UNA
DISTRIBUCIÓN, CONTRASTES DE ASIMETRÍA, CONTRASTES DE ALEATORIEDAD, ETC.
MINERÍA DE DATOS - INTRODUCCIÓN 58
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
SE DEBE REALIZAR LA COMPROBACIÓN DE LOS SUPUESTOS
SUBYACENTES EN LOS MÉTODOS MULTIVARIANTES PARA LA
MINERÍA DE DATOS; ESTOS SUPUESTOS SUELEN SER:
EL CONTRASTE DE LA NORMALIDAD DE TODAS Y C / U DE LAS VARIABLES QUE FORMAN PARTE DEL ESTUDIO.
EL TESTEO DE LA LINEALIDAD DE LAS RELACIONES ENTRE LAS VARIABLES.
LA COMPROBACIÓN DE LA HOMOCEDASTICIDAD DE LOS DATOS:
CONSISTE EN VER QUE LA VARIACIÓN DE LA VARIABLE DEPENDIENTE QUE SE INTENTA EXPLICAR A TRAVÉS DE
LAS VARIABLES INDEPENDIENTES NO SE CONCENTRA EN UN PEQUEÑO GRUPO DE VALORES INDEPENDIENTES.
MINERÍA DE DATOS - INTRODUCCIÓN 59
FASE DE EXPLORACIÓN EN MINERÍA
DE DATOS
LA COMPROBACIÓN DE LA MULTICOLINEALIDAD O EXISTENCIA DE RELACIONES ENTRE LAS VARIABLES INDEPENDIENTES.
LA CONTRASTACIÓN DE LA AUSENCIA DE CORRELACIÓN SERIAL DE LOS RESIDUOS O AUTOCORRELACIÓN:
CONSISTE EN ASEGURAR QUE CUALQUIERA DE LOS
ERRORES DE PREDICCIÓN NO ESTÁ CORRELACIONADO CON EL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN 60
FASE DE LIMPIEZA Y
MINERÍA DE DATOS - INTRODUCCIÓN 61
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
LIMPIEZA (DATA CLEANSING) Y CRIBA (SELECCIÓN) DE DATOS: SE DEBEN ELMININAR EL MAYOR NÚMERO POSIBLE DE DATOS ERRÓNEOS O INCONSISTENTES (LIMPIEZA) E IRRELEVANTES (CRIBA).
SE UTILIZAN MÉTODOS ESTADÍSTICOS CASI
EXCLUSIVAMENTE:
HISTOGRAMAS (DETECCIÓN DE DATOS ANÓMALOS).
SELECCIÓN DE DATOS (MUESTREO, YA SEA
VERTICALMENTE, ELIMINANDO ATRIBUTOS, U HORIZONTALMENTE, ELIMINANDO TUPLAS).
REDEFINICIÓN DE ATRIBUTOS (AGRUPACIÓN O
SEPARACIÓN).
MINERÍA DE DATOS - INTRODUCCIÓN 62
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
ACCIONES ANTE DATOS ANÓMALOS (OUTLIERS):IGNORAR:
ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS
ANÓMALOS (P.EJ. ÁRBOLES).
FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA:
SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA DISCRETA DICIENDO SI EL VALOR ERA NORMAL U OUTLIER (POR ENCIMA O POR DEBAJO).
FILTRAR LA FILA:
PUEDE SESGAR LOS DATOS, PORQUE MUCHAS VECES LAS
CAUSAS DE UN DATO ERRÓNEO ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES.
MINERÍA DE DATOS - INTRODUCCIÓN 63
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
REEMPLAZAR EL VALOR:POR EL VALOR “NULO” SI EL ALGORITMO LO TRATA BIEN
O POR MÁXIMOS O MÍNIMOS, DEPENDIENDO POR DONDE ES EL OUTLIER, O POR MEDIAS. A VECES SE PUEDE
PREDECIR A PARTIR DE OTROS DATOS, UTILIZANDO
CUALQUIER TÉCNICA DE ML.
DISCRETIZAR:
TRANSFORMAR UN VALOR CONTINUO EN UNO DISCRETO
(P.EJ. MUY ALTO, ALTO, MEDIO, BAJO, MUY BAJO) HACE QUE LOS OUTLIERS CAIGAN EN “MUY ALTO” O “MUY BAJO” SIN MAYORES PROBLEMAS.
MINERÍA DE DATOS - INTRODUCCIÓN 64
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
ACCIONES ANTE DATOS FALTANTES (MISSING VALUES):IGNORAR:
ALGUNOS ALGORITMOS SON ROBUSTOS A DATOS
FALTANTES (P.EJ. ÁRBOLES).
FILTRAR (ELIMINAR O REEMPLAZAR) LA COLUMNA: SOLUCIÓN EXTREMA, PERO A VECES EXISTE OTRA
COLUMNA DEPENDIENTE CON DATOS DE MAYOR CALIDAD. PREFERIBLE A ELIMINAR LA COLUMNA ES REEMPLAZARLA POR UNA COLUMNA BOOLEANA DICIENDO SI EL VALOR EXISTÍA O NO.
FILTRAR LA FILA:
CLARAMENTE SESGA LOS DATOS, PORQUE MUCHAS
VECES LAS CAUSAS DE UN DATO FALTANTE ESTÁN RELACIONADAS CON CASOS O TIPOS ESPECIALES.
MINERÍA DE DATOS - INTRODUCCIÓN 65
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
REEMPLAZAR EL VALOR:POR MEDIAS. A VECES SE PUEDE PREDECIR A PARTIR DE
OTROS DATOS, UTILIZANDO CUALQUIER TÉCNICA DE ML.
SEGMENTAR:
SE SEGMENTAN LAS TUPLAS POR LOS VALORES QUE
TIENEN DISPONIBLES. SE OBTIENEN MODELOS DIFERENTES PARA CADA SEGMENTO Y LUEGO SE COMBINAN.
MODIFICAR LA POLÍTICA DE CALIDAD DE DATOS Y ESPERAR HASTA QUE LOS DATOS FALTANTES ESTÉN DISPONIBLES.
MINERÍA DE DATOS - INTRODUCCIÓN 66
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
RAZONES SOBRE DATOS FALTANTES (MISSING VALUES):A VECES ES IMPORTANTE EXAMINAR LAS RAZONES TRAS
DATOS FALTANTES Y ACTUAR EN CONSECUENCIA:
ALGUNOS VALORES FALTANTES EXPRESAN
CARACTERÍSTICAS RELEVANTES:
• P.EJ. LA FALTA DE TELÉFONO PUEDE REPRESENTAR EN MUCHOS CASOS UN DESEO DE QUE NO SE MOLESTE A LA PERSONA EN CUESTIÓN, O UN CAMBIO DE DOMICILIO RECIENTE.
VALORES NO EXISTENTES:
• MUCHOS VALORES FALTANTES EXISTEN EN LA REALIDAD, PERO OTROS NO. P.EJ. EL CLIENTE QUE SE ACABA DE DAR DE ALTA NO TIENE CONSUMO MEDIO DE LOS ÚLTIMOS 12 MESES.
DATOS INCOMPLETOS:
• SI LOS DATOS VIENEN DE FUENTES DIFERENTES, AL COMBINARLOS SE SUELE HACER LA UNIÓN Y NO LA INTERSECCIÓN DE CAMPOS, CON LO QUE MUCHOS DATOS FALTANTES REPRESENTAN QUE ESAS TUPLAS VIENEN DE UNA/S FUENTE/S DIFERENTE/S AL RESTO.
MINERÍA DE DATOS - INTRODUCCIÓN 67
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TRANSFORMACIÓN DEL ESQUEMA:ESQUEMA ORIGINAL:
VENTAJAS:
• LAS R.I. (RELACIONES INICIALES (ORIGINALES)) SE MANTIENEN (NO HAY QUE REAPRENDERLAS, NO DESPISTAN).
INCONVENIENTES:
• MUCHAS TÉCNICAS NO SE PUEDEN UTILIZAR.
MINERÍA DE DATOS - INTRODUCCIÓN 68
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TABLA UNIVERSAL:CUALQUIER ESQUEMA RELACIONAL SE PUEDE CONVERTIR (EN UNA CORRESPONDENCIA 1 A 1) A UNA TABLA UNIVERSAL:
VENTAJAS:
• MODELOS DE APRENDIZAJE MÁS SIMPLES (PROPOSICIONALES).
DESVENTAJAS:
• MUCHÍSIMA REDUNDANCIA (TAMAÑOS INGENTES). LA INFORMACIÓN DEL ESQUEMA SE PIERDE. MUCHAS DEPENDENCIAS FUNCIONALES SE VUELVEN A RE-DESCUBRIR!! SE DEBE AÑADIR METAINFORMACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN 69
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
DESNORMALIZADO TIPO ESTRELLA O COPO DE NIEVE
(DATAMARTS):
VENTAJAS:
• SE PUEDEN BUSCAR REGLAS SOBRE INFORMACIÓN SUMARIZADA Y SI RESULTAN FACTIBLES SE PUEDEN
COMPROBAR CON LA INFORMACIÓN DETALLADA. SE
UTILIZAN OPERADORES PROPIOS: ROLL-UP,
DRILL-DOWN, SLICING AND DICING. DESVENTAJAS:
• ORIENTADAS A EXTRAER UN TIPO DE INFORMACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN 70
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
INTERCAMBIO DE DIMENSIONES: (FILAS POR COLUMNAS):EJEMPLO:
UNA TABLA DE CESTAS DE LA COMPRA, DONDE CADA
ATRIBUTO INDICA SI EL PRODUCTO SE HA COMPRADO O NO.
OBJETIVO: VER SI DOS PRODUCTOS SE COMPRAN
CONJUNTAMENTE (REGLA DE ASOCIACIÓN).
ES MUY COSTOSO: HAY QUE MIRAR AL MENOS LA RAÍZ
CUADRADA DE TODAS LAS RELACIONES (CESTAS): • PUEDE HABER MILLONES EN UNA SEMANA... • SIN EMBARGO... PRODUCTOS SÓLO HAY UNOS 10.000.
SÓLO ES NECESARIO HACER XOR ENTRE DOS FILAS PARA
SABER SI HAY ASOCIACIÓN.
MINERÍA DE DATOS - INTRODUCCIÓN 71
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
TRANSFORMACIÓN DE LOS CAMPOS:NUMERIZACIÓN / ETIQUETADO:
VENTAJAS:
• SE REDUCE ESPACIO: – EJ: APELLIDO ⇒⇒⇒⇒ENTERO.
• SE PUEDEN UTILIZAR TÉCNICAS MÁS SIMPLES.
DESVENTAJAS:
• SE NECESITA META-INFORMACIÓN PARA DISTINGUIR LOS DATOS INICIALMENTE NO NUMÉRICOS (LA CANTIDAD NO ES RELEVANTE) DE LOS INICIALMENTE NUMÉRICOS (LA CANTIDAD ES RELEVANTE: PRECIOS, UNIDADES, ETC.).
• A VECES SE PUEDE “SESGAR” EL MODELO (BIASING).
MINERÍA DE DATOS - INTRODUCCIÓN 72
FASE DE LIMPIEZA Y
TRANSFORMACIÓN DE DATOS
DISCRETIZACIÓN:VENTAJAS:
• SE REDUCE ESPACIO:
– EJ. 0..10 ⇒⇒⇒⇒(PEQUEÑO, MEDIANO, GRANDE). • SE PUEDEN UTILIZAR ÁRBOLES DE DECISIÓN Y
CONSTRUIR REGLAS DISCRETAS.
DESVENTAJAS:
• UNA MALA DISCRETIZACIÓN PUEDE INVALIDAR LOS RESULTADOS.