Data Mining, La Búsqueda del
Conocimiento
Universidad Tecnológica Metropolitana
Universidad Tecnológica Metropolitana..
Escuela de Informática.Escuela de Informática.
Alumno
Contenido
Motivación.
Motivación.
Estado del Arte.
Estado del Arte.
Data Mining.
Data Mining.
Métodos y Técnicas de Data Mining.
Métodos y Técnicas de Data Mining.
Ejemplo Práctico.
Ejemplo Práctico.
Motivación.
• Existen estimaciones de que la cantidad de información en el mundo se duplica a cada 20 meses y de la misma manera el número de base de datos están creciendo considerablemente.
Motivación.
• En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y recolectar datos, debido básicamente a 3 factores:
- Los avances de la tecnología ofrecen almacenar y procesar grandes cantidades de datos.
-La acumulación de datos con mucha rapidez.
Estado del Arte.
• El Data Mining representa hoy uno de los ejes fundamentales
del desarrollo en la competitividad de las Empresas.
• Históricamente, el desarrollo de la estadística nos ha
proporcionado métodos para analizar los datos y encontrar correlaciones y dependencias entre ellas.
• La definición de Data Mining utiliza términos claves para determinar el rendimiento de un sistema de adquisición de conocimiento.
Estado del Arte.
• Historia.Historia.
- Los 4 pasos listados fueron revolucionarios, porque daban respuestas correcta y rápida a nuevas inquietudes del negocio.
1.- Data Collection (1960’s)
Estado del Arte.
2.- Data Access (1980’s).
Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado?
Entrega de Datos: Dinámicos a nivel de registro.
3.-Data Navigation (1990’s).
Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? “ Drill Down” a Boston.
Estado del Arte.
4.- Data Mining (2000)
Pregunta del Negocio:¿ Qué puede sucederle a las unidades de venta de Boston el próximo mes?¿Por qué?
Entrega de Datos: Proactivas.
- Si nos remontamos a 1974, en el Departamento de Tecnología de la Escuela de Informática de la Universidad de Giorgia y en conjunto con la Escuela de Medicina de la Universidad de
Estado del Arte.
- Uno de los sistemas más famosos podemos destacar el AM (Lenat, 79) en donde simula el proceso que hace un
matemático para descubrir nuevos conceptos y relaciones entre conceptos usando heurística.
• El Conocimiento.El Conocimiento.
- Los elementos caracterizados del conocimineto son los Datos, la Información, la Inteligencia, el Aprendizaje y él mismo.
Estado del Arte.
Ej.
• 3... es un dato.
• 3 perros... es un dato.
• 3 perros guardianes... es un dato.
• 3 perros guardianes cuidando una casa en verano... es información
• 3 perros guardianes cuidando una casa en verano,
Data Mining
• Definición:Definición:
Data Mining
• Tareas de Data Mining.Tareas de Data Mining.
Los algoritmo de Data Mining realizan en general tareas como:
- Descripción. - Predicción. - Segmentación.
- Análisis de Dependencia.
Data Mining
• Proceso de Descubrimiento del Conocimiento en BaseProceso de Descubrimiento del Conocimiento en Base
de Datos (KDD).
de Datos (KDD).
Dominio Específico Recoleción de información Datos Selección Conjunto de Datos Preparación de Datos Datos limpios Preparados Transformación de Datos Minería de Datos Patrones Encontrados Evaluación, Interpretación de patrones
Conocimiento Aplicaciones del Conocimiento
Data Mining
• Aprendizaje.Aprendizaje.
- El Data Mining es un proceso que interviene la dinámica del método científico, en donde son los datos que dicen o hablan de que es lo que se quiere postular.
Data Mining
•Tipos Aprendizaje.Tipos Aprendizaje.
• Supervisado:Supervisado: el aprendizaje inductivo mediante la
generalización a partir de una serie de ejemplos y contraejemplos. También conocido como
adquisición de concepto o aprendizaje con ejemplos.
• No - supervisado: el sistema de aprendizaje analiza una serie de No - supervisado: entidades y determina características comunes, que pueden ser agrupadas formando un
concepto previamente desconocido. También conocido como formación de concepto o
Métodos y Técnicas de
Métodos y Técnicas de
Data Mining.
Método de Asociación.
Método de Asociación.
- Regla de Asociación.Regla de Asociación.
Métodos y Técnicas de
Data Mining.
Ej. DNI Renta Familia Ciudad Profesión Edad Hijos Obeso Casado 11251545 5.000.000 Santiago Ejecutivo 45 3 S S 30512526 1.000.000 Calama Abogado 25 0 S N 22451616 3.000.000 Concepción Ejecutivo 35 2 S S 25152516 2.000.000 Valparaíso Camarero 30 0 S S 23525251 1.500.000 Coquimbo Animador 30 0 N N
ASOCIACIONES:
Casado e (Hijos > 0) están asociado (80%, 4 casos). Obeso y Casado están asociados (80%, 4 casos).
Reglas:
Métodos y Técnicas de
Data Mining.
Método de Clasificación.
Método de Clasificación.
• Este método agrupa a los datos según similitudes o clases, también puede ser definido como una etiqueta, rótulo o
categoría de un dato en un conjunto de clases conocidas.
• El uso de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnica de
regresión.
• Dentro de los métodos de clasificación, se destacan los Arboles de Decisión, en donde los resultados pueden
Métodos y Técnicas de
Data Mining.
Ej Arbol de Decisión.
Métodos y Técnicas de
Data Mining.
Longitud Largo corto Tema Saltar Nuevo Viejo Leer Autor Leer Saltar Desconocido ConocidoLas hojas representan las posibles clasificaciones (Saltar o Leer). Los nodos internos representan los
distintos atributos (longitud, tema y autor) Las etiquetas de los arcos representan los posibles valores de los atributos (largo, corto, nuevo, viejo, conocido,desconocido)
Métodos y Técnicas de
Data Mining.
Método de Agrupamiento o Clustering.
Método de Agrupamiento o Clustering.
• Es el proceso de agrupar los datos en clases o clusters, de tal forma que los objetos de un clusters tenga similitud alta entre ellos y baja con objetos de otros clusters.
• La medida de similaridad se define usualmente por proximidad en un espacio mutidimensional.
Métodos y Técnicas de
Data Mining.
- Método basado en densidad. - Método basado en modelos.
Métodos y Técnicas de
Data Mining.
Método Predictivo.
Método Predictivo.
• Conocer a priori como evolucionará una determinada variable en el futuro constituye una ventaja competitiva. A partir de los datos históricos almacenados y utilizando una técnica de Data Mining pueden desarrollarse un modelo que permita estimar con precisión la evolución de una variable en el futuro y tomar las medidas correctas necesarias.
• Hay numerosos métodos de predicción, que incluyen
Métodos y Técnicas de
Data Mining.
Redes Neuronales.
Redes Neuronales.
• Ofrecen cualidades como:
- Búsqueda automática de todas las correlaciones posibles entre los hechos claves.
- Un modelado automático de problemas complejos sin el conocimiento “a priori” del nivel de la complejidad.
- Capacidad de extraer los resultados claves mucho más rápidamente que otras herramientas.
Métodos y Técnicas de
Data Mining.
Estructura de una Red Neuronal
Estructura de una Red Neuronal
Conexiones con pesos
Neurona
Métodos y Técnicas de
Data Mining.
WebMining
WebMining
• Puede definirse como la aplicación de las técnicas de Data Mining en Internet para el descubrimiento y análisis de
información potencialmente útil.
• Existen 3 clases de WebMining:
-Web Content Mining: es extraer la información del contenidoWeb Content Mining:
de los documentos en la web.
-Web Structure Mining:
-Web Structure Mining: se intenta descubrir un modelo a partir de la topología de enlaces de la red.
-Web Usage Mining:
-Web Usage Mining: se refiere al descubrimiento y análisis de modelos de acceso de usuarios desde uno o más servidores de la web, mediante la extracción de patrones e información
Ejemplo Práctico de
Ejemplo Práctico de
Data Mining
• Este ejemplo se desarrolló con datos obtenidos del SESMA, sobre las partículas contaminantes de la Región Metropolitana, registrados por la Red MACAM (Red de Monitoreo
Automático Calidad de Aire y Meteorología).
• El Software ocupado fue el WEKA, que es una herramienta que fue desarrollada por la Universidad de Waikato, Nueva
Zelanda. La atención de este software se centra en los algoritmos de clasificación, pero también incluyen implementación de
Ejemplo Práctico de
Data Mining
• Al Aplicar el Software WEKA se obtuvo los siguientes resultados:
• Datos Estadísticos. CO (Monóxido de Carbono)
media aritmética: 0.2567043010752693
desviación estándar: 0.40533252484091393
O3 (Ozono Troposférico)
media aritmética: 23.27016129032258 desviación estándar: 20.516306667480016
MP10 (Material Particulado menores a 10 micrones)
media aritmética: 54.44327956981247
Ejemplo Práctico de
Data Mining
• Aplicando el método de Clasificación de Regresión Lineal se obtuvo los siguientes resultados.
CO = -0.0073 * O3 + 0.0041 * MP10 + 0.2025
con un coeficiente de correlación igual al 40.53%;
O3 = -17.8486 * CO + 0.241 * MP10 + 14.7219
con una coeficiente de correlación que es igual a 44.57%
Conclusiones.
• Tema Poco difundido en chile y muy desarrollado en otros paises del mundo
• “No todo lo que brilla es oro”