• No se han encontrado resultados

DM VEJ SZC

N/A
N/A
Protected

Academic year: 2020

Share "DM VEJ SZC"

Copied!
35
0
0

Texto completo

(1)

Data Mining, La Búsqueda del

Conocimiento

Universidad Tecnológica Metropolitana

Universidad Tecnológica Metropolitana..

Escuela de Informática.Escuela de Informática.

Alumno

(2)

Contenido

Motivación.

Motivación.

Estado del Arte.

Estado del Arte.

Data Mining.

Data Mining.

Métodos y Técnicas de Data Mining.

Métodos y Técnicas de Data Mining.

Ejemplo Práctico.

Ejemplo Práctico.

(3)
(4)

Motivación.

• Existen estimaciones de que la cantidad de información en el mundo se duplica a cada 20 meses y de la misma manera el número de base de datos están creciendo considerablemente.

(5)

Motivación.

• En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y recolectar datos, debido básicamente a 3 factores:

- Los avances de la tecnología ofrecen almacenar y procesar grandes cantidades de datos.

-La acumulación de datos con mucha rapidez.

(6)
(7)

Estado del Arte.

• El Data Mining representa hoy uno de los ejes fundamentales

del desarrollo en la competitividad de las Empresas.

• Históricamente, el desarrollo de la estadística nos ha

proporcionado métodos para analizar los datos y encontrar correlaciones y dependencias entre ellas.

• La definición de Data Mining utiliza términos claves para determinar el rendimiento de un sistema de adquisición de conocimiento.

(8)

Estado del Arte.

Historia.Historia.

- Los 4 pasos listados fueron revolucionarios, porque daban respuestas correcta y rápida a nuevas inquietudes del negocio.

1.- Data Collection (1960’s)

(9)

Estado del Arte.

2.- Data Access (1980’s).

Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado?

Entrega de Datos: Dinámicos a nivel de registro.

3.-Data Navigation (1990’s).

Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? “ Drill Down” a Boston.

(10)

Estado del Arte.

4.- Data Mining (2000)

Pregunta del Negocio:¿ Qué puede sucederle a las unidades de venta de Boston el próximo mes?¿Por qué?

Entrega de Datos: Proactivas.

- Si nos remontamos a 1974, en el Departamento de Tecnología de la Escuela de Informática de la Universidad de Giorgia y en conjunto con la Escuela de Medicina de la Universidad de

(11)

Estado del Arte.

- Uno de los sistemas más famosos podemos destacar el AM (Lenat, 79) en donde simula el proceso que hace un

matemático para descubrir nuevos conceptos y relaciones entre conceptos usando heurística.

El Conocimiento.El Conocimiento.

- Los elementos caracterizados del conocimineto son los Datos, la Información, la Inteligencia, el Aprendizaje y él mismo.

(12)

Estado del Arte.

Ej.

• 3... es un dato.

• 3 perros... es un dato.

• 3 perros guardianes... es un dato.

• 3 perros guardianes cuidando una casa en verano... es información

• 3 perros guardianes cuidando una casa en verano,

(13)
(14)

Data Mining

Definición:Definición:

(15)

Data Mining

Tareas de Data Mining.Tareas de Data Mining.

Los algoritmo de Data Mining realizan en general tareas como:

- Descripción. - Predicción. - Segmentación.

- Análisis de Dependencia.

(16)

Data Mining

Proceso de Descubrimiento del Conocimiento en BaseProceso de Descubrimiento del Conocimiento en Base

de Datos (KDD).

de Datos (KDD).

Dominio Específico Recoleción de información Datos Selección Conjunto de Datos Preparación de Datos Datos limpios Preparados Transformación de Datos Minería de Datos Patrones Encontrados Evaluación, Interpretación de patrones

Conocimiento Aplicaciones del Conocimiento

(17)

Data Mining

Aprendizaje.Aprendizaje.

- El Data Mining es un proceso que interviene la dinámica del método científico, en donde son los datos que dicen o hablan de que es lo que se quiere postular.

(18)

Data Mining

Tipos Aprendizaje.Tipos Aprendizaje.

Supervisado:Supervisado: el aprendizaje inductivo mediante la

generalización a partir de una serie de ejemplos y contraejemplos. También conocido como

adquisición de concepto o aprendizaje con ejemplos.

No - supervisado: el sistema de aprendizaje analiza una serie de No - supervisado: entidades y determina características comunes, que pueden ser agrupadas formando un

concepto previamente desconocido. También conocido como formación de concepto o

(19)

Métodos y Técnicas de

(20)

Métodos y Técnicas de

Data Mining.

Método de Asociación.

Método de Asociación.

- Regla de Asociación.Regla de Asociación.

(21)

Métodos y Técnicas de

Data Mining.

Ej. DNI Renta Familia Ciudad Profesión Edad Hijos Obeso Casado 11251545 5.000.000 Santiago Ejecutivo 45 3 S S 30512526 1.000.000 Calama Abogado 25 0 S N 22451616 3.000.000 Concepción Ejecutivo 35 2 S S 25152516 2.000.000 Valparaíso Camarero 30 0 S S 23525251 1.500.000 Coquimbo Animador 30 0 N N

ASOCIACIONES:

Casado e (Hijos > 0) están asociado (80%, 4 casos). Obeso y Casado están asociados (80%, 4 casos).

Reglas:

(22)

Métodos y Técnicas de

Data Mining.

Método de Clasificación.

Método de Clasificación.

• Este método agrupa a los datos según similitudes o clases, también puede ser definido como una etiqueta, rótulo o

categoría de un dato en un conjunto de clases conocidas.

• El uso de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnica de

regresión.

• Dentro de los métodos de clasificación, se destacan los Arboles de Decisión, en donde los resultados pueden

(23)

Métodos y Técnicas de

Data Mining.

Ej Arbol de Decisión.

(24)

Métodos y Técnicas de

Data Mining.

Longitud Largo corto Tema Saltar Nuevo Viejo Leer Autor Leer Saltar Desconocido Conocido

Las hojas representan las posibles clasificaciones (Saltar o Leer). Los nodos internos representan los

distintos atributos (longitud, tema y autor) Las etiquetas de los arcos representan los posibles valores de los atributos (largo, corto, nuevo, viejo, conocido,desconocido)

(25)

Métodos y Técnicas de

Data Mining.

Método de Agrupamiento o Clustering.

Método de Agrupamiento o Clustering.

• Es el proceso de agrupar los datos en clases o clusters, de tal forma que los objetos de un clusters tenga similitud alta entre ellos y baja con objetos de otros clusters.

• La medida de similaridad se define usualmente por proximidad en un espacio mutidimensional.

(26)

Métodos y Técnicas de

Data Mining.

- Método basado en densidad. - Método basado en modelos.

(27)

Métodos y Técnicas de

Data Mining.

Método Predictivo.

Método Predictivo.

• Conocer a priori como evolucionará una determinada variable en el futuro constituye una ventaja competitiva. A partir de los datos históricos almacenados y utilizando una técnica de Data Mining pueden desarrollarse un modelo que permita estimar con precisión la evolución de una variable en el futuro y tomar las medidas correctas necesarias.

• Hay numerosos métodos de predicción, que incluyen

(28)

Métodos y Técnicas de

Data Mining.

Redes Neuronales.

Redes Neuronales.

• Ofrecen cualidades como:

- Búsqueda automática de todas las correlaciones posibles entre los hechos claves.

- Un modelado automático de problemas complejos sin el conocimiento “a priori” del nivel de la complejidad.

- Capacidad de extraer los resultados claves mucho más rápidamente que otras herramientas.

(29)

Métodos y Técnicas de

Data Mining.

Estructura de una Red Neuronal

Estructura de una Red Neuronal

Conexiones con pesos

Neurona

(30)

Métodos y Técnicas de

Data Mining.

WebMining

WebMining

• Puede definirse como la aplicación de las técnicas de Data Mining en Internet para el descubrimiento y análisis de

información potencialmente útil.

• Existen 3 clases de WebMining:

-Web Content Mining: es extraer la información del contenidoWeb Content Mining:

de los documentos en la web.

-Web Structure Mining:

-Web Structure Mining: se intenta descubrir un modelo a partir de la topología de enlaces de la red.

-Web Usage Mining:

-Web Usage Mining: se refiere al descubrimiento y análisis de modelos de acceso de usuarios desde uno o más servidores de la web, mediante la extracción de patrones e información

(31)

Ejemplo Práctico de

(32)

Ejemplo Práctico de

Data Mining

• Este ejemplo se desarrolló con datos obtenidos del SESMA, sobre las partículas contaminantes de la Región Metropolitana, registrados por la Red MACAM (Red de Monitoreo

Automático Calidad de Aire y Meteorología).

• El Software ocupado fue el WEKA, que es una herramienta que fue desarrollada por la Universidad de Waikato, Nueva

Zelanda. La atención de este software se centra en los algoritmos de clasificación, pero también incluyen implementación de

(33)

Ejemplo Práctico de

Data Mining

• Al Aplicar el Software WEKA se obtuvo los siguientes resultados:

• Datos Estadísticos. CO (Monóxido de Carbono)

media aritmética: 0.2567043010752693

desviación estándar: 0.40533252484091393

O3 (Ozono Troposférico)

media aritmética: 23.27016129032258 desviación estándar: 20.516306667480016

MP10 (Material Particulado menores a 10 micrones)

media aritmética: 54.44327956981247

(34)

Ejemplo Práctico de

Data Mining

• Aplicando el método de Clasificación de Regresión Lineal se obtuvo los siguientes resultados.

CO = -0.0073 * O3 + 0.0041 * MP10 + 0.2025

con un coeficiente de correlación igual al 40.53%;

O3 = -17.8486 * CO + 0.241 * MP10 + 14.7219

con una coeficiente de correlación que es igual a 44.57%

(35)

Conclusiones.

• Tema Poco difundido en chile y muy desarrollado en otros paises del mundo

• “No todo lo que brilla es oro”

Referencias

Documento similar