Tesis de Magister en Ingeniería en Sistemas de Información
Detección de Patrones de Daños y Averías en la Industria Automotriz
Ing. Hugo Daniel Flores
Directora: Dra. Paola V. Britos Codirector: Dr. Ramón García Martínez
- 2009 -
Resumen
En la industria automotriz uno de los temas relevantes en la producción y distribución de unidades es la detección e identificación de daños y/o averías producidas a lo largo del circuito que recorren los autos desde que salen de planta de producción hasta que llegan a su destino final.
Con el incremento de la globalización, los fabricantes de vehículos han ido rediseñando sus redes de producción en todo el mundo. Para optimizar los costes, determinados países son escogidos para especializarse en la producción de ciertos modelos. Esta situación ha dado lugar a un inevitable aumento del transporte de los vehículos desde los países productores a los mercados finales.
Durante estos trayectos los vehículos se ven sometidos a daños, en grado variable, en toda la cadena de suministro.
El objetivo del proyecto es utilizar la metodología CRISP-DM para detectar patrones en la producción de daños y/o averías en la cadena de distribución para permitir a la industria:
• Identificar daños y/o averías.
• Determinar responsabilidad de siniestralidad en función del tipo de avería y tipo de transporte.
• Imputar incidentes según el tipo de transporte.
• Determinar tipos de averías y/o daños.
• Determinar partes averiadas y/o dañadas que muestren algún tipo de comportamiento.
• Especificar gravedad de daños y/o averías.
• Definir e identificar modelos con daños especificando partes, tipo de daño y gravedad.
• Especificar lugares donde se producen daños y/o averías tratando de definir patrones de comportamiento.
• Especificar estadísticamente: tipos de transporte que producen daños y/o averías como así también, partes, tipos de averías, gravedades, lugares donde se producen.
• Descubrir información “oculta” en función de los modelos generados a partir de los datos disponibles.
Dedicatoria
A mi esposa y familia
Sandra, María Elena, Paula y Marcos
Agradecimiento
A la Universidad Tecnológica Nacional, Facultad Regional Tucumán y por su intermedio al Estado Nacional por darme la posibilidad de estudiar y acceder a un nivel académico superior.
A la Escuela de Posgrado de la Universidad Tecnológica Nacional, Facultad Regional Buenos Aires por haberme permitido acceder a este nivel de estudio.
A mis tutores Dra. Paola Britos y Dr. Ramón García Martínez por haberme conducido a lo largo del desarrollo de este trabajo de tesis.
A la Dra. Zulma Cataldi por su colaboración y asesoramiento en la especificación de los lineamientos generales para el desarrollo de esta tesis.
A mis colegas y asociados por haber contribuido abierta y desinteresadamente en las pruebas y consultas realizadas no solo para este proyecto en particular sino también por todos los emprendimientos que vamos logrando.
A mi esposa por darme la confianza y el apoyo, y soportar diariamente la ardua labor que implica mi desarrollo profesional permanente.
A mi madre por haberme inculcado desde niño a seguir el camino de la educación para mejorar mi futuro como persona, como hijo, como hermano y como hombre de familia.
Espero que este trabajo y su propuesta de futuras líneas de investigación sirvan como agradecimiento y devolución hacia la sociedad por las oportunidades que me brindó a través de la Universidad Estatal.
Índice
1. Introducción ... 9
1.1. Minería de Datos (Data Mining) ... 9
1.2. Lineamientos del documento de tesis ... 10
2. Técnicas de Minería de Datos... 11
1. Análisis estadístico... 11
2. Análisis a través de sistemas inteligentes ... 12
3. Conclusiones ... 13
3. Metodologías de Minería de Datos ... 15
3.1. SEMMA ... 15
3.2. CRISP-DM... 16
3.3. Microsoft... 18
3.4. Comparación de Metodologías ...21
4. La metodología CRISP-DM... 23
4.1. Introducción ... 23
4.1.1. La Metodología CRISP-DM ... 23
4.1.2. Pasaje de modelos genéricos a modelos especializados ... 24
4.2. El modelo de referencia CRISP-DM ... 25
4.2.1. Comprensión del Negocio... 27
4.2.2. Comprensión de Datos ... 31
4.2.3. Preparación de Datos ... 33
4.2.4. Modelado ... 37
4.2.5. Evaluación... 39
4.3. La guía de usuario de CRISP-DM ... 43
4.3.1. Comprendiendo el negocio ... 43
4.3.2. Comprensión de Datos ... 51
4.3.3. Preparación de los datos... 56
4.3.4. Modelado ... 60
4.3.5. Evaluación... 64
4.3.6. Desarrollo... 67
4.4. Las salidas del CRISP-DM ... 69
4.4.1. Comprensión del Negocio... 70
4.4.2. Comprensión de Datos ... 71
4.4.3. Preparación de Datos ... 72
4.4.4. Modelado ... 73
4.4.5. Evaluación... 74
4.4.6. Desarrollo... 75
4.4.7. Resumen de dependencias ... 75
4.5. Apéndice ... 77
4.5.1. Glosario/Terminología ... 77
4.5.2. Tipos de problemas de minería de datos... 77
5. Descripción y desarrollo de la industria... 85
5.1. La industria automotriz y el control de daños y/o averías ... 85
5.2. Circuitos logísticos... 86
5.3. Transportes y lugares de almacenamiento ... 87
6. Procesos a analizar, límites y alcance ... 89
6.1. Puntos de Control... 89
6.2. Estándares de inspección ... 89
7. Información y datos ... 91
7.1. Proceso de inspección y captura de datos ... 91
7.2. Sistema normalizado de codificación de daños y/o averías... 91
7.3. Proceso de educción de requerimientos del proyecto ... 91
8. Aplicación de la metodología propuesta. ... 95
8.1. Comprensión del Negocio... 95
8.2. Comprensión de Datos ... 104
8.3. Preparación de Datos ... 112
8.4. Modelado ... 115
8.4.1. Selección de las técnicas de modelado ... 115
8.4.2. Generación de la prueba de diseño ... 115
8.4.3. Construcción de los modelos ... 116
8.4.4. Descripción de los modelos ... 119
8.4.4.1. Modelo de Clasificación ... 119
8.4.4.2. Modelo de Clustering... 144
8.4.4.3. Modelo de Predicción ... 167
8.4.5. Dificultades encontradas ...190
8.5. Evaluación... 190
8.5.1. Evaluación de los resultados en términos de minería de datos ... 190
8.5.2. Evaluación de los resultados en términos de objetivos de negocio. ... 218
8.5.2.1. Tipos de averías. ...219
8.5.2.2. Lugares... 220
8.5.2.3. Modelos... 220
8.5.2.4. Partes, Averías y Gravedad. ... 221
8.5.2.5. Lugares, Partes y Tipos de Averías... 224
8.5.2.6. Modelos, Partes y Tipos de Averías... 232
8.5.2.7. Imputación Tipo de Transporte... 238
8.6. Desarrollo... 241
8.6.1. Plan de desarrollo... 241
8.6.2. Supervisión y mantenimiento del plan... 250
8.6.3. Producción de Informe definitivo ... 251
8.6.4. Revisión del proyecto... 252
9. Conclusiones ... 253
10. Líneas futuras de investigación... 257
11. Bibliografías y Documentación ... 259
12. Anexos ... 261
Anexo 1: Terminología de negocio... 261
Anexo 2: Terminología de minería de datos... 262
Anexo 3: Consultas estructuradas para base de datos... 264
Anexo 4: Codificación ... 273
Anexo 5: Presentación final. ... 277
1. Introducción
1.1. Minería de Datos (Data Mining)
El gran desarrollo tecnológico de los últimos años ha potenciado el almacenamiento de grandes volúmenes de información. No solo desde el punto de vista del “computador personal” sino también desde el punto de vista de la computación como un conjunto de dispositivos electrónicamente interconectados capaces de soportar el trasporte de grandes cantidades de información en una dirección determinada con el propósito de ser almacenada centraliza o descentralizadamente, o bien desde el punto de vista de redes electrónicas donde desde cada nodo se permite la posibilidad de cargar información en una o más bases de datos.
Al mayor poder de procesamiento y transporte de información se suman los avances tecnológicos en materia de base de datos que soportan “grandes” volúmenes de información de diferentes orígenes y fuentes pudiendo incluir texto, números, imágenes, video, etc.
Estos avances en materia de gran capacidad de almacenamiento de información han dado lugar a la creación de nuevas tecnologías como la Minería de Datos.
Conceptualmente la Minería de Datos o Explotación de Datos, como también será llamada en el presente trabajo, se puede definir como un conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos con motivo de predecir de forma automatizada tendencias y comportamientos y/o descubrir de forma automatizada modelos previamente desconocidos [Piatetski-Shapiro, 1991].
Desde un punto de vista empresarial la minería de datos puede ser definida como un conjunto de áreas que tiene como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones [Molina, 2001].
Lo que realmente hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, el Datawarehouse y el Procesamiento Masivo, principalmente usando como materia prima bases de datos.
Para tener una aproximación cercana a las diversas definiciones encontradas en diferentes artículos de diferentes autores se puede concluir que la minería de datos es un proceso con el cual se pueden descubrir y cuantificar relaciones predictivas en los datos, y del resultado de este proceso es posible obtener conocimiento útil para el negocio.
Hoy en día realizando las consultas (simplemente navegando los datos) convencionales a grandes bases de datos no es suficiente para resolver problemas de negocios, sino que se hace necesario seguir una metodología ordenada para aplicar herramientas tecnológicas y técnicas disponibles en informáticas para así obtener conocimiento y resultados que permitan a las compañías obtener un beneficio. El entorno natural del Data Mining es el Datawarehouse.
La minería de datos trata de sacar información de detalle de un almacén de datos. No se conforma solo con la visualización de datos, sino que es necesario obtener resultados en cuanto a la relación que existe entre los mismos y como estos podrían repercutir en el negocio.
Para la explotación de datos aplicando minería de datos existen diferentes técnicas las cuales pueden ser desarrolladas según diferentes metodologías. A continuación se describirán algunas técnicas y metodologías de Data Mining.
1.2. Lineamientos del documento de tesis
El primer capítulo desarrolla una breve introducción a la minería de datos que es la base operacional del presente proyecto de tesis.
El capítulo dos muestra una descripción de las diferentes técnicas de minería de datos que pueden ser aplicadas en función de las necesidades del estudio en cuestión.
El tercer capítulo realiza una comparación entre las diferentes metodología de minería de datos desarrolladas hasta el presente. Además muestra el avance tecnológico de cada técnica y muestra como resultado una breve conclusión que motiva la aplicación de la metodología seleccionada para este proyecto.
En el cuarto capítulo se desarrolla la metodología completa a utilizar en este proyecto y esta además representa para esta tesis el estado de la tecnología. Se toma como marco de referencia la metodología propuesta por la organización creadora de la misma y a la cual se hace referencia en las respectivas citas.
Le quinto capítulo describe la situación actual de la industria automotriz en lo referente a daños y/o averías. Además se muestran los posibles circuitos logísticos estándares en la industria y demás detalles como los tipos de transporte o lugares de estacionamiento de las unidades automotrices.
El sexto capítulo hace referencia a los procesos a analizar, los límites del proyecto y los alcances del mismo.
En el séptimo capítulo se realiza la descripción global del sistema de información del que se obtiene toda la información para la explotación de datos.
En el capítulo ocho se realiza la aplicación de la metodología propuesta a la industria automotriz.
Paso a paso se hace el desarrollo completo de la metodología propuesta.
El capítulo nueve muestra las conclusiones a las que se arriba luego del desarrollo del proyecto de tesis.
En el capítulo diez se presentan las posibles líneas de investigación que surgen de la realización de este proyecto.
El capítulo once muestra la bibliografía a la cual se ha recurrido para el desarrollo del presente proyecto.
Finalmente en el capítulo doce se muestran todos los anexos utilizados para la preparación, análisis y evaluación de los resultados.
2. Técnicas de Minería de Datos
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico y mediante los modelos extraídos. Utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
1. Análisis estadístico
Debido al gran volumen de datos con el que se puede contar en la actualidad y al poder de proceso en la tecnología desarrollada hasta aquí, se hace viable la exploración de la información utilizando diferentes técnicas estadísticas.
El Análisis Estadístico se preocupa más por el poder de generalización de los resultados obtenidos para inferir los resultados a situaciones más generales que la estudiada.
A continuación se presentan algunas técnicas:
• ANOVA o análisis de la Varianza: Contrasta si existen diferencias significativas entre las medidas de una o más variables continuas en grupos de población distintos.
• Regresión: Define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
• Chi cuadrado: Contrasta la hipótesis de independencia entre variables.
• Componentes principales: Permite reducir el número de variables observadas a un menor número de variables artificiales, conservando la mayor parte de la información sobre la varianza de las variables.
• Análisis discriminante: Método de clasificación de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto identificar cuáles son las variables que mejor definan la pertenencia al grupo.
• Series temporales: Es el conocimiento de una variable a través del tiempo para que a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades, que se diferencian por el ámbito de tiempo abarcado, para por composición obtener la serie original. Se pueden aplicar enfoques híbridos con los métodos anteriores, en los que la serie se puede explicar no sólo en función del tiempo sino como combinación de otras variables de entornos más estables y, por lo tanto, más fácilmente predecibles.
• Análisis cluster1: Permite clasificar una población en un número determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha población.
• El método Chaid (Chi Squared Automatic Interaction Detector): Es un análisis que genera un árbol de decisión para predecir el comportamiento de una variable, a partir de una o más variables predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es útil en aquellas situaciones en las que el objetivo es dividir una población en distintos segmentos basándose en algún criterio de decisión. El árbol de decisión se construye partiendo el conjunto de datos en dos o más subconjuntos de observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos subconjuntos vuelve después a ser particionado utilizando el mismo algoritmo. Este proceso continúa hasta que no se encuentran diferencias significativas en la influencia de las
1 Análisis cluster usando mapas autoorganizados (técnica de sistemas inteligentes) será aplicado en esta tesis.
variables de predicción de uno de estos grupos hacia el valor de la variable de respuesta. La raíz del árbol es el conjunto de datos íntegro, los subconjuntos y los subsubconjuntos conforman las ramas del árbol. Un conjunto en el que se hace una partición se llama nodo.
El número de subconjuntos en una partición puede ir de dos hasta el número de valores distintos que puede tomar la variable usada para hacer la separación. La variable de predicción usada para crear una partición es aquella más significativamente relacionada con la variable de respuesta de acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia.
2. Análisis a través de sistemas inteligentes
El objetivo de la aplicación de Sistemas Inteligentes en la minería de datos es extraer información de manera no supervisada. Se preocupa por ofrecer soluciones algorítmicas con un costo computacional aceptable.
A continuación se presentan algunas de estas técnicas:
• Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización.
• Redes neuronales: Genéricamente son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
• Lógica difusa: Es una generalización del concepto de estadística. La estadística clásica se basa en la teoría de probabilidades, a su vez ésta en la técnica conjuntista, en la que la relación de pertenencia a un conjunto es dicotómica (el 2 es par o no lo es). Si se establece la noción de conjunto borroso como aquel en el que la pertenencia tiene una cierta graduación (¿un día a 20º C es caluroso?), dispondremos de una estadística más amplia y con resultados más cercanos al modo de razonamiento humano.
• Mapas autoorganizados: Los mapas autoorganizados o SOM (Self-Organizing Map), también llamados redes de Kohonen son un tipo de red neuronal no supervisada, competitiva, distribuida de forma regular en una rejilla de, normalmente, dos dimensiones, cuyo fin es descubrir la estructura subyacente de los datos introducidos en ella. A lo largo del entrenamiento de la red, los vectores de datos son introducidos en cada neurona y se comparan con el vector de peso característico de cada neurona. La neurona que presenta menor diferencia entre su vector de peso y el vector de datos es la neurona ganadora (o BMU, Best-Matching Unit, Unidad con mejor ajuste) y ella y sus vecinas verán modificados sus vectores de pesos.
• Algoritmos de inducción: Encuadrado dentro de las técnicas de Aprendizaje Automático (Machine Learning), estos algoritmos permiten construir automáticamente a partir de un conjunto de datos de entrenamiento un árbol de clasificación. Para inferir el árbol, el algoritmo realiza particiones binarias sucesivas en el espacio de las variables explicativas,
de forma que en cada partición se escoge la variable que aporta más información en función de una medida de entropía o cantidad de información. El árbol así construido consta del mínimo número de atributos (variables) que se requieren para la clasificación eficiente de los ejemplos dados, con lo que es claro el gran poder explicativo de esta técnica. También se pueden elaborar, a partir del árbol, reglas de clasificación fácilmente interpretables, que definen las características que más diferencian a las distintas clases establecidas inicialmente. Este tipo de sistemas clasificadores presentan la ventaja, frente a las técnicas estadísticas, de que tienen un carácter estrictamente no paramétrico. Además, aunque no alcanzan el poder predictivo de las redes neuronales, sus resultados son mucho más fácilmente interpretables que los modelos de “caja negra” suministrados por aquéllas.
3. Conclusiones
En general, cualquiera que sea el problema a resolver, no existe una única técnica para solucionarlo, sino que puede ser abordado siguiendo aproximaciones distintas. El número de técnicas es muy grande y es muy probable que siga creciendo.
La experiencia práctica muestra la aptitud de las técnicas de minería de datos para resolver problemas empresariales. También es clara su aportación para resolver problemas científicos que impliquen el tratamiento de grandes cantidades de datos.
La minería de datos es, en realidad, una prolongación de una práctica estadística de larga tradición, la de Análisis de Datos. Existe, además, una aportación propia de técnicas específicas de Inteligencia Artificial, en particular sobre la integración de los algoritmos, la automatización del proceso y la optimización del coste.
A diferencia de la IA, que es una ciencia joven, en Estadística se viene aprendiendo de los datos desde hace más de un siglo, la diferencia consiste en que ahora existe la potencia de cálculo suficiente para tratar ficheros de datos de forma masiva y automática. Esta es una realidad que cada vez será más habitual.
Por otro lado y en relación a la amplia diversidad de técnicas disponibles, conviene tener claro que no existe la técnica más inteligente, sino formas inteligentes de utilizar una técnica y que cada uno utiliza de forma inteligente aquello que conoce. También que para la mayoría de los problemas no existen diferencias significativas en los resultados obtenidos.
3. Metodologías de Minería de Datos
3.1. SEMMA2
SAS Institute3 es el desarrollador de esta metodología, la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos.
El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del proceso (Figura 1).
Figura 1: Fases de la metodología SEMMA
El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de esta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple.
La metodología SEMMA establece que para cada muestra considerada para el análisis del proceso se debe asociar el nivel de confianza de la muestra.
Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología SEMMA indica que se debe proceder a una exploración de la información disponible con el fin de simplificar en lo posible el problema para optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización o de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo.
La tercera fase de la metodología consiste en la manipulación de los datos, en base a la exploración realizada, de forma que se definan y tengan el formato adecuado los datos que serán introducidos en el modelo.
Una vez que se han definido las entradas del modelo con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de esta fase consiste en establecer una relación entre las variables explicativas y las variables objeto del estudio, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica fuzzy (difusa), árboles de decisión, reglas de asociación y computación evolutiva.
2 SEMMA: Simple, Explore, Modify, Model, Assess.
3 SAS Institute: Es una empresa con sede en Cary (Carolina del Norte, Estados Unidos). Es uno de los principales fabricantes de software business intelligence.[
Muestreo (Sample)
Exploración (Explore)
Manipulación (Modify)
Modelado (Model)
Valoración (Assess)
Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos contrastados con otros métodos estadísticos o con nuevas poblaciones muestrales.
3.2. CRISP-DM4
La metodología CRISP-DM (Chapman, 1999) consta de cuatro niveles de abstracción, organizados de forma jerárquica en tareas que van desde el nivel más general hasta los casos más específicos.
A nivel más general, el proceso está organizado en seis fases (Figura 2), estando cada fase a su vez estructurada en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas específicas, donde se describen las acciones que deben ser desarrolladas para situaciones específicas. Así, si en el segundo nivel se tiene la tarea general “limpieza de datos”, en el tercer nivel se dicen las tareas que tienen que desarrollarse para un caso específico, como por ejemplo,
“limpieza de datos numéricos”, o “limpieza de datos categóricos”. El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados sobre el proyecto de Data Mining específico.
La metodología CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de Data Mining: el del modelo de referencia y la guía del usuario.
El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas del proyecto de Data Mining. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia al proyecto de Data Mining específico, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase.
La metodología CRISP-DM estructura el ciclo de vida de un proyecto de Data Mining en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto (Figura 2).
Las flechas indican relaciones más habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza cíclica del proceso de modelado.
4 CRISP-DM: Cross Industry Standard Process for Data Mining.
Figura 2: Fases del proceso de modelado metodología CRISP-DM.
La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación.
La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que sea posible establecer un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis.
Una vez realizado el análisis de datos, la metodología establece que se proceda a la preparación de los datos, de tal forma que puedan ser tratados por las técnicas de modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se van a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato.
La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática.
Análisis del Problema
Análisis de los datos
Preparación de los datos
Modelado Evaluación
Explotación Datos
En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de Data Mining específico. Las técnicas a utilizar en esta fase se seleccionan en función de los siguientes criterios:
• Ser apropiada al problema
• Disponer de datos adecuados
• Cumplir los requerimientos del problema
• Tiempo necesario para obtener un modelo
• Conocimiento de la técnica
Antes de proceder al modelado de los datos se debe de establecer un diseño del método de evaluación de los modelos, que permita establecer el grado de bondad de los modelos. Una vez realizadas estas tareas genéricas se procede a la generación y evaluación del modelo. Los parámetros utilizados en la generación del modelo dependen de las características de los datos.
En la fase de evaluación, se evalúa el modelo, no desde el punto de vista de los datos, sino del cumplimiento de los criterios de éxito del problema. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos para poder repetir algún paso en el que a la vista del desarrollo posterior del proceso se hayan podido cometer errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase, se procede a la explotación del modelo.
Normalmente los proyectos de Data Mining no terminan en la implantación del modelo, sino que se deben documentar y presentar los resultados de manera comprensible en orden a lograr un incremento del conocimiento. Además en la fase de explotación se debe de asegurar el mantenimiento de la aplicación y la posible difusión de los resultados [Fayyad, 1996].
3.3. Microsoft
En la Figura 3 se describe las relaciones entre cada paso en la metodología desarrollada por Microsoft para la implementación de Data Mining (Figura 3).
Figura 3: Fases del proceso de modelado metodología Microsoft.
El primer paso del proceso de minería de datos consiste en definir claramente el problema empresarial.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir el objetivo final del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:
• ¿Qué se está buscando?
• ¿Qué atributo del conjunto de datos se desea intentar predecir?
• ¿Qué tipos de relaciones se intenta buscar?
• ¿Se desea realizar predicciones a partir del modelo de minería de datos o sólo buscar asociaciones y patrones interesantes?
• ¿Cómo se distribuyen los datos?
• ¿Cómo se relacionan las columnas? o en caso de haber varias tablas, ¿cómo se relacionan las tablas?
Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto.
El segundo paso del proceso de minería de datos consiste en consolidar y limpiar los datos identificados en el paso “Definir el problema”.
Los datos pueden estar dispersos en la empresa y almacenados en distintos formatos; también pueden contener incoherencias como entradas que faltan o contienen errores.
Definir el problema
Preparar datos
Explorar datos
Generar modelos Validar
modelos Implementar y
actualizar modelos
Integración de servicio Integración de
servicio
Vista de origen de datos Diseñador de
minería de datos
El tercer paso del proceso de minería de datos consiste en explorar los datos preparados.
Se debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estándar y examinar la distribución de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuación, crear una estrategia para solucionar los problemas.
El cuarto paso del proceso de minería de datos consiste en generar los modelos de minería de datos.
Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobación independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobación para comprobar la precisión del modelo mediante la creación de consultas de predicción.
Una vez definida la estructura del modelo de minería de datos, se procesa rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemático.
El modelo de minería de datos se define mediante un objeto de estructura de minería de datos, un objeto de modelo de minería de datos y un algoritmo de minería de datos.
El quinto paso del proceso de minería de datos consiste en explorar los modelos que se han generado y comprobar su eficacia.
No se debe implementar un modelo en un entorno de producción sin comprobar primero si el modelo funciona correctamente. Además, puede ser que se hayan creado varios modelos y se deba decidir cuál funciona mejor. Si ninguno de los modelos que se han creado en el paso Generar Modelos funciona correctamente, puede ser que se deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original.
El último paso del proceso de minería de datos consiste en implementar los modelos que funcionan mejor en un entorno de producción.
Una vez que los modelos de minería de datos se encuentran en el entorno de producción, se pueden llevar acabo diferentes tareas, dependiendo de las necesidades.
Éstas son algunas de las tareas que se pueden realizar:
• Utilizar los modelos para crear predicciones que se puedan utilizar para tomar decisiones empresariales.
• Incrustar la funcionalidad de minería de datos directamente en una aplicación.
• Crear un paquete en el que se utilice un modelo de minería de datos para separar de forma inteligente los datos entrantes en varias tablas.
• Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente.
La actualización del modelo forma parte de la estrategia de implementación. A medida que la organización recibe más datos, se deben volver a procesar los modelos para mejorar así su eficacia.
3.4. Comparación de Metodologías
Las metodologías SEMMA, CRISP-DM y Microsoft esencialmente son muy parecidas. Las tres están compuestas por etapas o fases que interactúan entre sí.
En referencia a la tecnología SEMMA está más ligada a los aspectos técnicos de la explotación de datos. En cuanto a las otras dos, están más enfocadas en el negocio en sí; es decir en la aplicación de la Minería de Datos a los negocios. Esta diferencia se ve específicamente en la primera etapa donde SEMMA arranca directamente en el trabajo de datos mientras que CRISP-DM y Microsoft empiezan por el estudio del negocio y sus objetivos, y luego recién se transforma en un problema técnico.
Analizando la propuesta metodológica de Microsoft se puede ver que está íntimamente vinculada a la aplicación de las herramientas de su propia compañía (Microsoft) especialmente en lo que respecta a la integración de servicios, vista de origen de datos y diseñador de minería de datos. Lo mismo ocurre con la metodología SEMMA la cual está ligada a herramientas SAS.
Para concluir se puede decir que uno de los motivos por los cuales fue escogida para el presente proyecto la metodología CRISP-DM es que este sistema está diseñado como una metodología independiente de la herramienta tecnológica a utilizar en la Explotación de Datos. Esto último la hace más flexible. Otro punto importante es que es de libre acceso y cumple con la característica de ser orientada al negocio. Para esta implementación su desarrollo será aplicado a los datos de la Industria Automotriz.
Finalmente también es posible resaltar que la metodología CRISP-DM es más completa debido a que tiene toda una fase dedicada al entendimiento del negocio.
La Tabla 1 muestra un cuadro comparativo entre las diferentes metodologías descriptas hasta aquí.
Metodologías CRISP-DM SEMMA Microsoft
Estructura Fases y niveles Fases Fases
Niveles Parte de lo general a lo específico
No tiene No tiene
Fases Análisis del problema
Análisis de datos Preparación de Datos Modelado
Evaluación Explotación
Muestreo Exploración Manipulación Modelado Valoración
Definir el problema Preparar los datos Explorar los datos Generar modelos
Explorar y validar los modelos Implementar y actualizar los modelos
Herramientas Genéricas SAS Microsoft
Procesos Iterativo e interactivo entre fases
Iterativo e interactivo entre fases
Iterativo e interactivo entre fases
Documentación Modelo de referencia Guía de usuario
No se especifica No se especifica Objetivos Se centra en los
objetivos
empresariales del proyecto
Se centra en las características técnicas del desarrollo del proceso
Se centra en los objetivos empresariales del proyecto
Tabla 1: Cuadro comparativo de metodologías
4. La metodología CRISP-DM
4.1. Introducción
4.1.1. La Metodología CRISP-DM
4.1.1.1. Interrupción jerárquica
La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos. (Ver figura 4.)
Figura 4: Cuatro niveles de interrupción de la metodología CRISP-DM
En el nivel superior, el proceso de minería de datos es organizado en un número de fases; cada fase consiste de varias tareas genéricas de segundo nivel. Este segundo nivel es llamado genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos.
Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minería de datos como todas las aplicaciones de minería de datos posibles. Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo.
El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. Por ejemplo, en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. El tercer nivel describe como esta tarea se distingue en situaciones diferentes, como la limpieza de valores numéricos contra la limpieza de valores categóricos, o si el tipo de problema es de agrupamiento o de modelado predictivo.
La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos.
En la práctica, muchas de las tareas pueden ser realizadas en un orden diferente, y esto a menudo es necesario para volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Este modelo
de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo.
El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minería de datos real.
Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos, pero representa más bien lo que en realidad sucede en un caso particular que lo que sucede en general.
4.1.1.2. Modelo de referencia y guía de usuario
Horizontalmente, la metodología de CRISP-DM distingue entre el modelo de referencia y la guía de usuario. El modelo de referencia presenta una descripción rápida de fases, las tareas, y sus salidas, y describe que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minería de datos.
4.1.2. Pasaje de modelos genéricos a modelos especializados 4.1.2.1. Contexto de la minería de datos
El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP- DM. Actualmente se distinguen cuatro dimensiones diferentes de contextos de minería de datos:
• El dominio de aplicación es el área específica en la que el proyecto de minería de datos toma lugar.
• Los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de objetivo(s) con el que el proyecto de minería de datos trata.
• El aspecto técnico cubre cuestiones específicas en minería de datos que describe diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos.
• La herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos.
La Tabla 2 resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión.
Contexto Data Mining Dimensión
Dominio Aplicación
Tipo Problema Data Mining
Aspecto Técnico
Herramienta y Técnica Modelar Respuesta Descripción y
sumarización
Valores por omisión
Clementine Realizar Predicción Segmentación Outliers Mineset Realizar Predicción Descripción
Concepto
Outliers Decision Tree
Clasificación Decision Tree
Predicción Ejemplos
Análisis Dependencia
Tabla 2: Dimensión de contextos y ejemplos de minería de datos
Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. Por ejemplo, un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico. Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minería de datos.
4.1.2.2. Pasaje con contextos
Se distinguen dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM:
• Pasaje para el presente: Si sólo se aplica el modelo de proceso genérico para realizar un proyecto de minería simple e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido, se habla sobre un pasaje solo para (probablemente) un solo uso.
• Pasaje para el futuro: Si sistemáticamente se especializa el modelo de proceso genérico según un contexto predefinido (o se analiza sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), se habla explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM.
Cualquiera de los tipos de trazados es apropiado según sus propios objetivos, depende de su contexto de minería de datos específicos y las necesidades de su organización.
4.1.2.3. Pasaje
La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje:
• Analizar su contexto específico.
• Quitar cualquier detalle no aplicable a su contexto.
• Agregar cualquier detalle específico a su contexto.
• Especializar (o instanciar) el contenido genérico según las características concretas de su contexto.
• Renombrar el contenido genérico posible para proporcionar significados más explícitos en su contexto para la aclaración.
4.2. El modelo de referencia CRISP-DM
El modelo de proceso corriente para la minería de datos proporciona una descripción del ciclo de vida del proyecto de minería de datos. Este contiene las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas. En este nivel de descripción, no es posible identificar todas las relaciones. Las relaciones podrían existir entre cualquier tarea de minería de datos según los objetivos, el contexto, y -lo más importante- el interés del usuario sobre los datos.
El ciclo de vida del proyecto de minería de datos consiste en seis fases, se muestran en la Figura 2 (Fases del proceso de modelado metodología CRISP-DM). La secuencia de las fases no es rígida.
El movimiento hacia adelante y hacia atrás entre fases diferentes es siempre requerido. El resultado de cada fase determina que la fase o la tarea particular de una fase tienen que ser realizados después. Las flechas indican las más importantes y frecuentes dependencias entre fases.
El círculo externo en la Figura 2 simboliza la naturaleza cíclica de la minería de datos. La minería de datos no se termina una vez que la solución es desplegada. Las informaciones ocultas (lecciones ocultas) durante el proceso y la solución desplegada pueden provocar nuevas y a menudo más preguntas enfocadas en el negocio. Los procesos de minería subsecuentes se beneficiarán de las experiencias previas. A continuación se describe brevemente cada fase:
• Comprensión del Negocio: Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y exigencias desde una perspectiva de negocio, luego se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.
• Comprensión de los datos: La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad de datos, descubrir los primeros conocimientos en los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.
• Preparación de Datos: La fase de Preparación de Datos cubre todas las actividades necesarias para construir el conjunto de datos final (los datos que serán provistos por las herramientas de modelado) de los datos en bruto iniciales. Las tareas de Preparación de Datos probablemente van a ser realizadas muchas veces y no en cualquier orden prescripto.
Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan.
• Modelado: En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados a valores óptimos. Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requerimientos específicos sobre la forma de datos. Por lo tanto, volver a la fase de Preparación de Datos es a menudo necesario.
• Evaluación: En esta etapa en el proyecto, se ha construido un modelo (o modelos) que parece tener una alta calidad de la perspectiva de análisis de datos. Antes de proceder al despliegue final del modelo es importante evaluar a fondo el modelo y la revisión de los pasos ejecutados para crearlo para comparar el modelo correctamente obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido suficientemente considerada. En el final de esta fase, una decisión en el uso de los resultados de minería de datos debería ser tomada.
• Desarrollo: La creación del modelo no es generalmente el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento ganado debería ser organizado y presentado en el modo en el que el cliente pueda usarlo. Ello a menudo implica la aplicación de modelos "vivos" dentro de un proceso de toma de decisiones de una organización, por ejemplo, en tiempo real la personalización de página Web o la repetida obtención de bases de datos de mercadeo. Dependiendo de los requerimientos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización repetida de un proceso cruzado de minería de datos a través de la empresa. En muchos casos, es el cliente, no el analista de datos, quien lleva el paso de desarrollo. Sin embargo, incluso si el analista realizara el esfuerzo de despliegue, esto es importante para el cliente para entender que acciones necesitan ser ejecutadas en orden para hacer uso de los modelos creados en ese momento.
La figura 5 presenta un contexto de fases acompañadas por tareas genéricas y las salidas. En las secciones siguientes, se describen cada tarea genérica y sus salidas más detalladamente. La atención es enfocada en descripciones de tarea y resúmenes de salidas.
Figura 5: Tareas genéricas y salidas del modelo de referencia CRISP-DM 4.2.1. Comprensión del Negocio
La primera etapa de la metodología apunta a la comprensión de los objetivos del proyecto desde el punto de vista de los objetivos de negocio. En función del conocimiento obtenido del negocio se plantea un problema de minería de datos. En esta etapa se desarrollan los pasos preliminares para lograr los objetivos del negocio con herramientas de minería de datos.
Figura 6: Comprensión del Negocio 4.2.1.1. Determinación de objetivos de negocio
Tarea: Determinar los objetivos de negocio
El primer objetivo para un contexto es entender desde una perspectiva de negocio lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos que compiten y restricciones que deben ser correctamente equilibrados. El objetivo debe ser mostrar (destapar) factores importantes, al principio esto puede influir en el resultado del proyecto.
Una consecuencia posible de la negligencia de este paso es gastar un gran esfuerzo produciendo respuestas correctas a preguntas incorrectas o erradas.
Salida: Contexto
Se registra la información que se conoce sobre la situación de negocio de la organización en el principio del proyecto.
Objetivos de negocio
Se describe el objetivo primario del cliente, desde una perspectiva de negocio. Además de los objetivos del negocio primario allí hay típicamente otras preguntas de negocio relacionadas con lo que al cliente le gustaría administrar. Por ejemplo, el objetivo primario del negocio podría ser mantener a clientes corrientes por predicción cuando ellos son propensos a moverse a un competidor. Los ejemplos de preguntas relacionadas de negocio son ¿Cómo el uso del canal
primario (por ejemplo, ATM, visita al negocio, Internet) afecta si los clientes se quedan o se van? o
¿Bajar los honorarios de ATM considerablemente reducirá el número de los clientes más importante que se irán?
Criterios de éxito de negocio
Se describen los criterios para un resultado acertado o útil al proyecto desde el punto de vista del negocio. Esto podría ser bastante específico y capaz de ser medido objetivamente, por ejemplo, la reducción de clientes se revuelve a un cierto nivel o valor, o esto podría ser general y subjetivo, como “dar ideas útiles en las relaciones”. En este último caso, debería indicarse quien hace el juicio subjetivo.
4.2.1.2. Evaluación de la situación Tarea: Evaluar la situación
Esta tarea implica la investigación más detallada sobre todos los recursos, restricciones, presunciones, y otros factores que deberían ser considerados en la determinación del objetivo de análisis de datos y el plan de proyecto. En la tarea anterior, su objetivo es ponerse rápidamente al día con la situación. Aquí se quiere ampliar sobre los detalles.
Salida: Inventario de recursos
Se listan los recursos disponibles para el proyecto, incluyendo el personal (expertos de negocio, expertos de datos, soportes técnicos, expertos en minería de datos), datos (extractos fijos, aproximaciones a la vida real, almacenes de datos, o datos operacionales), recursos computacionales (plataformas de hardware), y software (herramientas de minería de datos, otros software relevantes).
Requerimientos, presunciones, y restricciones
Se listan todos los requerimientos del proyecto, incluyendo el programa de terminación, la comprensibilidad y calidad de los resultados, y la seguridad, así como las cuestiones legales. Como parte de esta salida se debe asegurar que se permita usar los datos.
Se listan las presunciones hechas por el proyecto. Estas pueden ser presunciones sobre los datos que pueden ser verificados durante la minería de datos, pero también puede incluir presunciones no comprobables sobre el negocio relacionado con el proyecto. Es en particular importante listar si esto afectará la validez de los resultados.
Se listan las restricciones sobre el proyecto. Estas pueden ser restricciones sobre la disponibilidad de recursos, pero puede también incluir coacciones tecnológicas como el tamaño de conjunto de datos lo que es práctico para usar el modelado.
Riesgos y contingencias
Se listan los riesgos o los acontecimientos que podrían retrasar el proyecto o hacer que falle. Se listan los planes de contingencia correspondientes, que acción será tomada si estos riesgos o acontecimientos ocurren.
Terminología
Se compila un glosario de terminología relevante al proyecto. Esto puede incluir dos componentes:
(1) Un glosario de terminología relevante del negocio, que forma parte de la comprensión del negocio disponible al proyecto. La construcción de este glosario es una útil “evocación al conocimiento” y un ejercicio de educación.
(2) Un glosario de terminología de minería de datos, ilustrada con ejemplos relevantes al problema del negocio en cuestión.
Costos y beneficios
Se construye un análisis de costo-beneficio para el proyecto, que compare los gastos del proyecto con los beneficios potenciales al negocio si esto es exitoso. La comparación debería ser tan específica como sea posible. Por ejemplo, usar medidas monetarias en una situación comercial.
4.2.1.3. Determinación de los objetivos de la minería de datos Tarea: Determinar los objetivos de la minería de datos
Un objetivo de negocio declara objetivos en la terminología de negocio. Un objetivo de minería de datos declara objetivos de proyecto en términos técnicos. Por ejemplo, el objetivo de negocio podría ser “Aumentar catálogos de ventas a clientes existentes.” Un objetivo de minería de datos podría ser
“Predecir cuantas baratijas un cliente comprará, obteniendo datos de sus compras de tres años pasados, información demográfica (edad, sueldo, ciudad, etc.), y el precio del artículo.”
Salida: Objetivos de la minería de datos
Se describen las salidas intencionadas del proyecto que permiten el logro de los objetivos de negocio.
Criterios de éxito de la minería de datos
Se definen los criterios de un resultado exitoso para el proyecto en términos técnicos por ejemplo, un cierto nivel de predicción precisa o un perfil de inclinación a comprar con un determinado grado de "elevación". Como con un criterio de éxito de negocio, puede ser necesario describir estos en términos subjetivos, en este caso la persona o las personas que hacen el juicio subjetivo deberían ser identificadas.
4.2.1.4. Producir el plan del proyecto Tarea: Producir el plan del proyecto
Se describe el plan intencionado para alcanzar los objetivos de minería de datos y así alcanzar los objetivos de negocio.
El plan debería especificar los pasos para ser realizados durante el resto del proyecto, incluyendo la selección inicial de herramientas y técnicas.
Salida: Plan del Proyecto
Se listan las etapas a ser ejecutadas en el proyecto, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, se debe hacer explícita la iteración en gran escala en el proceso de minería de datos. Por ejemplo, las repeticiones del modelado y las fases de evaluación.
Como parte del plan de proyecto es también importante analizar dependencias entre la planificación de tiempo y los riesgos.
Se marcan los resultados de estos análisis explícitamente en el plan de proyecto, idealmente con acciones y recomendaciones si los riesgos se manifiestan.
El plan de proyecto contiene proyectos detallados para cada fase. Se decide en este punto que estrategia de evaluación será usada en la fase de evaluación.
El plan de proyecto es un documento dinámico debido a que en el final de cada fase son necesarios una revisión del progreso y logros y es recomendada una actualización correspondiente del plan de proyecto. Los puntos de revisión específicas para estas actualizaciones son parte del plan del proyecto.
Evaluación inicial de herramientas y técnicas
En el final de la primera fase, una evaluación inicial de herramientas y técnicas debería ser realizada. Aquí, por ejemplo, se puede seleccionar una herramienta de minería de datos que soporte varios métodos para las distintas etapas del proceso. Es importante evaluar herramientas y técnicas tempranamente en el proceso desde la selección de herramientas y técnicas y esto puede influir en el proyecto entero.
4.2.2. Comprensión de Datos
En esta fase se desarrolla el entendimiento de datos y todas aquellas actividades relacionadas con la limpieza de datos, identificación de problemas vinculados con la toma de datos, procedimientos para determinar la calidad de datos y todo lo tendiente a facilitar la familiarización con los datos. A partir de esta etapa se determinan los primeros subconjuntos de datos que pueden contener la información que se está buscando.
Figura 7: Comprensión de Datos 4.2.2.1. Recolección de datos iniciales
Tarea: Recolectar datos iniciales
Se adquieren en el proyecto los datos (o el acceso a los datos) listados en los recursos del proyecto.
Esta colección inicial incluye carga de datos, si es necesario para la comprensión de los datos. Por ejemplo, si se usa un instrumento específico para la comprensión de los datos, esto perfectamente se entiende para abrir sus datos en esta herramienta. Este esfuerzo posiblemente conduce a los pasos iniciales de Preparación de Datos.
Si se adquieren datos de múltiples fuentes, la integración es una cuestión adicional, aquí o más tarde en las fases de Preparación de Datos.
Salida: Informe de colección de datos inicial
Se lista el conjunto de dato(s) adquirido(s), juntos con sus posiciones, los métodos usados para adquirirlos, y algunos de los problemas encontrados. Se registran los problemas encontrados y algunas de las resoluciones alcanzadas. Esto ayuda a la réplica (observación) futura del proyecto o a la ejecución de proyectos similares futuros.
4.2.2.2. Describir los datos Tarea: Describir los datos
Se examinan las propiedades "gruesas" o "superficiales" de los datos e informes adquiridos en los resultados.
Salida: Informe de descripción de datos
Se describen los datos que han sido adquiridos, incluyendo su formato, la cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), los identificadores de los campos, y cualquier otro rasgo superficial que ha sido descubierto. Se evalúa si los datos adquiridos satisfacen las exigencias relevantes.
4.2.2.3. Explorar los datos Tarea: Explorar los datos
Esta tarea dirige interrogantes de minería de datos usando preguntas, visualización, y técnicas de reporte. Estos incluyen la distribución de atributos claves (por ejemplo, el atributo objetivo de una tarea de predicción) relacionados entre pares o pequeños números de atributos, los resultados de simples agregaciones, las propiedades de las subpoblaciones significativas, y análisis estadísticos simples. Estos análisis directamente pueden dirigir los objetivos de minería de datos; ellos también pueden contribuir o refinar la descripción de datos e informes de calidad, y alimentar en la transformación y otros pasos de Preparación de Datos necesarios para análisis futuros.
Salida: Informe de exploración de datos
Se describen los resultados de esta tarea, incluyendo primeras conclusiones o hipótesis iniciales y su impacto sobre el resto del proyecto. Si es apropiado, se pueden incluir gráficos y plots para indicar las características de datos que sugieren más examen de subconjuntos de datos interesantes.
4.2.2.4. Verificar la calidad de los datos Tarea: Verificar la calidad de los datos
Se examina la calidad de los datos, dirigiendo preguntas como: ¿Los datos están completos? ¿Esto cubre todo los casos requeridos? ¿Son correctos, o estos contienen errores y, si hay errores, que tan comunes son estos? ¿Hay valores omitidos en los datos? Si es así, ¿como se representan estos, donde ocurre esto, y que tan comunes son estos?
Salida: Informe de calidad de datos
Se listan los resultados de la verificación de calidad de datos; si existen problemas de calidad, se listan las posibles soluciones. Las soluciones a los problemas de calidad de datos generalmente dependen tanto del conocimiento de los datos como del negocio.
4.2.3. Preparación de Datos
En esta etapa se desarrollan las actividades para construir el conjunto de datos final. Aquí se relaciona directamente el formato de los datos obtenidos con las herramientas de minería de datos a utilizar. La tarea de Preparación de Datos probablemente será desarrollada en más de una fase en paralelo a lo largo de todo el proyecto. Esta fase y sus tareas están vinculados con los aspectos técnicos de sistemas como lo son las base de datos, tablas, registros, documentos electrónicos y todos los programas / procesos para la transformación de los datos en información utilizable por los modelos de minería de datos.
Figura 8: Preparación de Datos Salida: Conjunto de datos
Este es el conjunto (o conjuntos) producido por la fase de Preparación de Datos, que es usada para modelar o para el trabajo principal de análisis del proyecto.
Descripción del conjunto de datos
Se describe el conjunto de datos (o conjuntos) que es usado para el modelado y el trabajo principal de análisis del proyecto.
4.2.3.1. Selección de datos Tarea: Seleccionar datos
Se decide si los datos son usados para el análisis. Los criterios incluyen tanto la importancia a los objetivos de la minería de datos, la calidad, y las restricciones técnicas como los límites sobre el volumen de datos o los tipos de datos. La selección de datos puede cubrir tanto la selección de atributos (columnas) como la selección de registros (filas) en una tabla.
Salida: Razonamiento para la inclusión/exclusión
Se listan los datos para ser incluidos o excluidos y los motivos para estas decisiones.
4.2.3.2. Limpieza de datos Tarea: Limpiar datos
Se eleva la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto puede implicar la selección de los subconjuntos de datos limpios, la inserción de datos por defecto adecuados, o técnicas más ambiciosas tales como la estimación de datos faltantes mediante modelado.
Salida: Informe de la limpieza de los datos
Se describe que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos informados durante la tarea de Verificación de Calidad de Datos de la fase de Comprensión de Datos. Las transformaciones de los datos para una apropiada limpieza y el posible impacto en el análisis de resultados deberían ser considerados.
4.2.3.3. Construir datos Tarea: Construir datos
Esta tarea incluye la construcción de operaciones de preparación de datos tales como la producción de atributos derivados o el ingreso de nuevos registros, o la transformación de valores para atributos existentes.
Salidas: Atributos derivados
Los atributos derivados son los atributos nuevos que son construidos de uno o más atributos existentes en el mismo registro. Ejemplo: área = longitud x anchura.
Registros generados
Se describe la creación de registros completamente nuevos. Ejemplo: Crear registros para los clientes quienes no hicieron compras durante el año pasado. No habría ninguna razón de tener tales registros en los datos brutos, pero para el objetivo del modelado esto podría tener sentido para representar explícitamente el hecho que ciertos clientes no hayan hecho ninguna compra.
4.2.3.4. Integrar datos Tarea: Integrar datos
Estos son los métodos por el cual la información es combinada desde múltiples tablas o registros para crear nuevos registros o valores.
Salida: Combinación de datos
La combinación de tablas se refiere a la unión simultánea de dos o más tablas que tienen información diferente sobre el mismo objeto. Ejemplo: una cadena de venta al público tiene una tabla con la información sobre las características generales de cada tienda (por ejemplo, el espacio, el tipo de comercio), otra tabla con datos resumidos de las ventas (por ejemplo, el beneficio, el cambio porcentual en ventas desde el año anterior), y la otra con información sobre los datos demográficos del área circundante. Cada una de estas tablas contiene un registro para cada tienda.
Estas tablas pueden ser combinadas simultáneamente en una nueva tabla con un registro para cada tienda, combinando campos de las tablas fuentes.
Los datos combinados también cubren agregaciones. La agregación se refiere a operaciones en la que nuevos valores de información resumida son calculados desde múltiples registros y/o tablas.
Por ejemplo, convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en una tabla nueva donde hay un registro para cada cliente, con campos tales como el número de compras, el promedio de la cantidad de compra, el porcentaje de ordenes cobrados a tarjeta de crédito, el porcentaje de artículos bajo promoción, etc.
4.2.3.5. Formatear datos Tarea: Formatear datos
Se refiere a modificaciones principalmente sintácticas hechas a los datos que no cambian su significado, pero podría ser requerido por la herramienta de modelado.
Salida: Datos reformateados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tales como el primer campo que es un único identificador para cada registro o el último campo que es el campo resultado que el modelo debe predecir.
Podría ser importante cambiar el orden de los registros en el conjunto de datos. Quizás la herramienta de modelado requiere que los registros sean clasificados según el valor del atributo de resultado.