• No se han encontrado resultados

Unidad 1: Introducción a la Minería de Datos

N/A
N/A
Protected

Academic year: 2021

Share "Unidad 1: Introducción a la Minería de Datos"

Copied!
43
0
0

Texto completo

(1)

Unidad 1:

Introducción a la Minería

de Datos

(2)

Agenda

1.  Introducción

1.1 ¿ Porque Minar Datos ?

1.2 ¿ Que es la Minería de Datos ?

1.3 ¿ Que datos pueden ser minados ?

2.  Descubriendo Patrones Básicos

3.  Minado Eficiente de Patrones

(3)

¿Porque minar datos?

Vivimos en un mundo en el que se recogen

diariamente grandes cantidades de datos.

El análisis de estos datos es una necesidad

importante.

<a href="http://pennystocks.la/internet-in-real-time/" target="_blank"><img

src="http://pennystocks.la/internet-in-real-time/images/social/internet600.gif"

border="0" width="1200" height="700" /></a><br /><span style="font-size:

12px;">Click the animation to open the full version (via <a href="http://

(4)
(5)
(6)

¿Porque minar datos?

La minería de datos puede satisfacer esta

necesidad, proporcionando herramientas

para descubrir el conocimiento de los

datos.

(7)

Avanzar hacia la Era de la

Información

"Estamos viviendo en la era de la información" es

un dicho popular;

Sin embargo, en realidad estamos viviendo en la

era de los datos.

Terabytes o petabytes de datos almacenados en

nuestras redes de computadoras, todos los días de

la Web y guardados en varios dispositivos de

(8)

Avanzar hacia la Era de la

Información

Este crecimiento explosivo del volumen de datos

disponibles es el resultado de la informatización de la

sociedad y el rápido desarrollo de poderosas

herramientas de recopilación y almacenamiento de

datos.

Las empresas de todo el mundo generan conjuntos de

datos gigantescas, incluidas las operaciones de ventas,

registros de comercio de acciones, descripciones de

productos, promociones de ventas, perfiles de

(9)

Avanzar hacia la Era de la

Información

Por ejemplo, las grandes tiendas, como Wal-Mart,

manejan cientos de millones de transacciones por

semana en miles de sucursales en todo el mundo.

Prácticas científicas y de ingeniería generan

grandes cantidades de petabytes de datos en

forma continua, a partir de sensores remotos, de

medición de procesos, experimentos científicos,

el rendimiento del sistema, observaciones de

(10)

¿Que es la Minería de Datos?

Término recientemente acuñado* para la

confluencia de ideas de estadísticas y

ciencias de la computación (aprendizaje de

máquinas y métodos de base de datos) que

se aplica a las grandes bases de datos de la

ciencia, la ingeniería y los negocios.

(11)

¿Que es la Minería de Datos?

(12)

¿Que es la Minería de Datos?

Una de las preferidas:

"Estadísticas rápidas a escala"

Darryl Pregibon

Complementada por Nitin Patel

(13)

¿Que es la Minería de Datos?

"La minería de datos es el proceso de descubrir

nuevas correlaciones significativas, patrones y

tendencias por tamizado a través de grandes

cantidades de datos almacenados en repositorios,

utilizando tecnologías de reconocimiento de

(14)

¿Que es la Minería de Datos?

Disciplinas fundamentales

Estadística (adaptados para tamaños de datos del siglo

21 y los requisitos de velocidad).

Descripción: Visualización

Modelos (DMD): Regresión, Análisis de Cluster

Aprendizaje Automático: Redes Neurales

Recuperación de la base de datos: Reglas de

Association

(15)
(16)

¿Que es la Minería de Datos?

La minería de datos en busca

de conocimiento (patrones

(17)

¿Que es la Minería de Datos?

No es ninguna sorpresa que la minería de datos, como un sujeto

verdaderamente interdisciplinario, se puede definir de muchas maneras diferentes.

Incluso el término minería de datos en realidad no presenta todos los componentes principales de la imagen anterior.

Para referirse a la explotación minera del oro de piedras o arena, decimos la minería de oro en vez de roca o la extracción de arena.

Análogamente, la minería de datos debería haber sido más apropiadamente llamada "minería de conocimiento a partir de datos", que es por desgracia un poco largo.

Sin embargo, el termino corto minería de conocimiento puede no reflejar el énfasis en la minería de grandes cantidades de datos.

(18)

¿Que es la Minería de Datos?

Por lo tanto, un nombre poco apropiado

como llevar tanto los "datos" y "minería" se

convirtió en una opción popular.

Además, muchos otros términos tienen un

significado similar a la minería de datos, por

ejemplo, la minería del conocimiento a partir

de datos, extracción de conocimiento,

(19)

¿Que es la Minería de Datos?

Muchas personas tratan a la minería de datos como

sinónimo de otro término utilizado popularmente,

descubrimiento de conocimiento a partir de datos,

o KDD.

Mientras que otros consideran a la minería de datos

como meramente un paso esencial en el proceso de

descubrimiento de conocimiento.

(20)
(21)

¿Que es la Minería de Datos?

Pasos del KDD (Resumidos)

1.- Data Cleaning (Para remover datos inconsistentes y con ruido)

2.- Data Integration (Cuando es necesario combinar datos de fuentes multiples)

3.- Data Selection (Donde los datos pertinentes a la tarea de análisis se recuperan de la base de datos)

4.- Data Transformation (Donde los datos se transforman y se consolidan en formas apropiadas para la minería mediante la realización de operaciones de resumen o de agregación)

5.- Data Mining (Un proceso esencial donde se aplican métodos inteligentes para extraer patrones de datos)

6.- Pattern evaluation (Para identificar los patrones verdaderamente

interesantes que representan el conocimiento basado en las medidas de Intereses)

(22)

¿Que es la Minería de Datos?

Los pasos del 1 al 4 son diferentes formas de

pre-procesamiento de datos, y preparación

para el proceso de minería.

El paso de la minería de datos puede

interactuar con el usuario o una base de

conocimientos.

Los patrones interesantes se presentan al

(23)

¿Que datos pueden ser minados?

Como la tecnología en general, minería de datos se

puede aplicar a cualquier tipo de datos siempre

que los datos sean significativos para una

aplicación.

(24)

¿Que clase de patrones

pueden ser minados?

Hemos observado varios tipos de datos y

repositorios de información en la que se

puede realizar minería de datos.

(25)

¿Que clase de patrones

pueden ser minados?

Hay una serie de funciones de la minería de datos.

Estas incluyen

la caracterización y la

discriminación

;

la extracción de patrones

frecuentes, asociaciones y correlaciones;

clasificación y regresión;

análisis de agrupación; y

el análisis de valores atípicos.

Estas funciones de la minería de datos se utilizan

para especificar los tipos de patrones que se

(26)

Caracterización de Datos

Es un resumen de las características generales o

características de una clase de los datos.

Los datos correspondientes a la clase especificada por

el usuario se recogen típicamente por una consulta.

Por ejemplo, para estudiar las características de los

productos de software con ventas que aumentaron

en un 10% en el año anterior, los datos relacionados

con este tipo de productos se pueden recoger

(27)

Caracterización de Datos

Ejemplo:

Un gerente de relaciones con los clientes en AllElectronics podría

indicar la siguiente tarea de minería de datos:

Haga un resumen de las características de los clientes que gastan

más de $ 5000 por año en AllElectronics.

El resultado es un perfil general de estos clientes, tales como que

son entre 40 y 50 años de edad, empleado, y tienen excelentes

calificaciones crediticias.

(28)

Discriminación de Datos

Es una comparación de las características generales de los datos de

los objetos clase contra las características generales de los objetos

de una o múltiples clases contrastantes.

El objetivo y las clases contrastantes pueden ser especificados por el

usuario y los datos de los objetos correspondientes se pueden

recuperar a través de consultas de bases de datos.

Por ejemplo, un usuario puede querer comparar las características

generales de los productos de software con ventas que aumentaron

en un 10% el año pasado frente a los que tienen ventas que

disminuyeron al menos un 30% durante el mismo período.

(29)

Extracción de patrones frecuentes, asociaciones

y correlaciones

Los Patrones frecuentes, como su nombre indica, son

patrones que se producen con frecuencia en los datos.

Hay muchos tipos de patrones frecuentes, incluidos

conjuntos de elementos frecuentes, secuencias de sub

frecuencias (también conocidos como patrones

secuenciales), y subestructuras frecuentes.

Un conjunto de elementos frecuentes típicamente se

refiere a un conjunto de elementos que a menudo

(30)

Extracción de patrones frecuentes,

asociaciones y correlaciones

Por ejemplo, la leche y el pan, que se compran con frecuencia juntos

en tiendas Cery GRO por muchos clientes.

Una subsecuencia se produce con frecuencia, como el patrón de que

los clientes, tienden a comprar primero un ordenador portátil,

seguido por una cámara digital, y luego una tarjeta de memoria, es un

(frecuente) patrón secuencial.

Una subestructura puede referirse a diferentes formas estructurales

(por ejemplo, gráficos, árboles, o celosías) que pueden ser

combinados con conjuntos de elementos o subsecuencias.

(31)

Análisis de Asociaciones

Supongamos que, como gerente de marketing de

AllElectronics, desea saber qué artículos se

compran con frecuencia juntos (es decir, dentro de

la misma transacción).

(32)

Análisis de Asociaciones

Donde X es una variable que representa un cliente.

El nivel de confianza, o la certeza, de 50% significa que si un cliente

compra una computadora, hay una probabilidad del 50% que va a

comprar el software también.

Un soporte 1% significa que 1% de todas las transacciones bajo análisis

muestran que el ordenador y el software son comprados juntos.

Esta regla de asociación implica un solo atributo o predicado (es decir,

compra) que se repite.

Las reglas de asociación que contienen un solo predicado se les llama

unidimensionales.

En lógica de predicados, la regla se puede escribir simplemente como "

(33)

Análisis de Asociaciones

Supongamos, en cambio, se nos da la base

de datos relacional AllElectronics

relacionada con las compras.

(34)

Clasificación y Regresión

para análisis predictivo

La clasificación es el proceso de encontrar un

modelo (o función) que describe y distingue clases

de datos o conceptos.

Los modelos se derivan a partir del análisis de un

conjunto de datos de entrenamiento (es decir, los

datos objeto para los que se conocen las etiquetas

de clase).

(35)

Análisis de agrupación y el análisis de

valores atípicos (Cluster Analysis)

A diferencia de la clasificación y de regresión, que analizan los conjuntos de datos etiquetados por clase (entrenamiento).

Clustering se puede utilizar para generar etiquetas de clase para un grupo de datos.

Los objetos están agrupados bajo el principio de maximizar la similitud a nivel intra clase y minimizar la similitud entre clases.

Es decir, las agrupaciones de objetos están formadas de modo que los objetos dentro de un grupo tienen una alta similitud en comparación con el uno al otro, pero son bastante diferentes a los objetos en otros racimos.

Cada grupo así formado puede ser visto como una clase de objetos, a partir del cual se pueden derivar reglas.

(36)

Una gráfica 2-D de datos de

los clientes con respecto a las

ubicaciones de los clientes en

una ciudad, que muestra tres

(37)

Análisis de valores atípicos

Un conjunto de datos puede contener objetos que no

cumplan con el comportamiento general o modelo de los

datos.

Estos objetos de datos son valores atípicos.

Muchos métodos de minería de datos descartan valores

atípicos como el ruido o excepciones.

Sin embargo, en algunas aplicaciones (por ejemplo, la detección

de fraudes) los eventos raros pueden ser más interesantes que

las que ocurren con más regularidad.

(38)

¿ Que es Descubrir Patrones ?

Descubriendo patrones

Los Patrones representan las propiedades

intrínsecas e importantes de los conjuntos de

datos

Descubrimiento del patrón: Descubriendo

patrones de conjuntos de datos masivos.

Que son los patrones?

(39)

¿ Porque es importante

descubrir patrones ?

Encontrar regularidades inherentes a un conjunto de datos

Fundamentos para muchas tareas de minería de datos esenciales

Asociación, correlación y análisis de causalidad

Minería de secuencias, (por ejemplo, sub-gráfico) patrones

estructurales

El análisis del patrón en espacio-temporal, multimedia, series

de tiempo, y flujo de datos

Clasificación: análisis basado en patrones discriminativos

(40)

Ejemplos y aplicaciones

¿Qué productos se compran a menudo

juntos?

¿Cuáles son las compras posteriores después

de la compra de un iPad?

¿Qué segmentos de código probable

contiene el copiar y pegar este trabajo?

(41)

Ejemplos y aplicaciones

CRM

Finanzas

(42)

Minado Eficiente de Patrones

¿Todos los patrones son interesantes?

Usted puede preguntar, "¿Son todos los

patrones interesantes?"

Por lo general, la respuesta es no, sólo una

pequeña fracción de los patrones

(43)

Minado Eficiente de Patrones

Para responder a la pregunta, un patrón es interesante

si:

(1) Es fácilmente entendido por los seres humanos

(2) Válida nuevos datos de prueba con algún grado de

certeza

(3) Potencialmente útil, y

(4) Nuevo

Referencias

Documento similar

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

Volviendo a la jurisprudencia del Tribunal de Justicia, conviene recor- dar que, con el tiempo, este órgano se vio en la necesidad de determinar si los actos de los Estados

[r]

[r]

[r]

Asegurar una calidad mínima en los datos es una de las tareas más difíciles de conseguir para los organismos públicos cuyo objetivo es publicar datos lo más rápidamente posible

Se estima una distancia de más de 11 millones de años luz hablando de una cantidad de sistemas solares que no tendrían espacio en nuestra mente y esto solo hablando del grupo

El tercero tiene notas bajas pero la mayor es estadística, una de las temáticas trabajadas de forma más mecánica, asimismo el último arquetipo muestra que, aun con notas buenas,