• No se han encontrado resultados

Minería de Datos Diplomado

N/A
N/A
Protected

Academic year: 2021

Share "Minería de Datos Diplomado"

Copied!
54
0
0

Texto completo

(1)

Módulo

Módulo

Minería de Datos

Minería de Datos

Diplomado

Diplomado

Por

Por

Elizabeth León Guzmán, Ph.D

Elizabeth León Guzmán, Ph.D

.

.

Profesora

Profesora

Ingeniería de Sistemas

Ingeniería de Sistemas

Grupo de Investigación MIDAS

(2)

Este documento se desarrolló a partir de otras fuentes que se encuentran citadas tanto dentro del contenido como en los espacios reservados para la bibliografía.

Si usted es autor de los documentos que se tomaron como bibliografía y considera que las referencias a su trabajo no están adecuadamente

descritas, por favor comuníquese con la profesora Elizabeth León Perdomo a través del correo electrónico: eleonguz@unal.edu.co.

(3)

Introducción

Introducción

Minería de Datos

(4)

1.

¿Qué es la minería de datos?

Datos, Información, Conocimiento

2.

KDD: Knowledge Discovery Databases

Proceso de descubrir conocimiento en bases de datos

2.

Técnicas de Minería de Datos

3.

Tareas de Minería de Datos

(5)

¿Qué es un dato?

(6)

¿Qué es información?

(7)

¿Qué es conocimiento?

Información co-relacionada

Patrones!

(8)

Generación de Datos

Web (e-commerce)

Supermercados(compras)

Bancos (transacciones con tarjetas)

(9)

Generación de Datos

Satélites (sensores)

Telescopios

Microarrays (información genética)

Simulaciones

Científico

(10)

Datos

Datos almacenados

Bases de datos

Web

(11)

Algo peor que no

tener información

disponible es tener

mucha información

Y no saber qué

hacer con ella.

(12)

Minería de Datos

Grandes bases de datos contienen información no

plenamente explotada

Información valiosa: “Conocimiento” oro!

Esta información puede ser encontrada entre los datos

haciendo uso de

minería

en los datos.

Pto comercial: competencia, servicios con el cliente

(13)

KDD

Descubrimiento de Conocimiento en Bases de Datos

Los datos son la materia prima bruta

INFORMACIÓN

INFORMACIÓN

(14)

KDD

Descubrimiento de Conocimiento en Bases de Datos

Nos referimos al

(15)

KDD

KDD

Descubrimiento de Conocimiento en Bases de Datos

Descubrimiento de Conocimiento en Bases de Datos

Proceso para descubrir información útil o conocimiento (patrones,

Proceso para descubrir información útil o conocimiento (patrones,

asociaciones) desde grandes repositorios de datos.

asociaciones) desde grandes repositorios de datos.

Minería de datos

Datos

(16)

KDD

(17)

El valor real de los datos reside en la

información que se puede extraer

de ellos, información que ayude a

tomar decisiones o mejorar nuestra

comprensión de los fenómenos que

nos rodean

KDD

(18)

El KDD es el Proceso no trivial de

El KDD

identificar patrones válidos,

novedosos, potencialmente útiles y,

en última instancia, comprensibles a

partir de los datos, teniendo como

objetivo encontrar conocimiento útil

relevante y nuevo sobre un

fenómeno o actividad, presentando

los resultados de manera visual.

KDD

(19)
(20)

1. Pre-procesamiento de Datos: Limpieza,

integración y transformación.

2. Minería de Datos: Uso de

métodos

métodos

inteligentes

inteligentes para extraer conocimiento

(búsqueda de oro) .

3. Evaluación de patrones encontrados y

presentación

KDD

(21)

Minería de datos

Paso del KDD,

Que descubre “conocimiento” en grandes conjunto de datos

Usa métodos como:

Inteligencia artificial Aprendizaje de Máquina Estadistica

Mineria de datos

Mineria de datos

Mineria de datos

Mineria de datos

Bases de datos

(22)

MINERIA DE DATOS

Base de datos Estadística Recuperación

De

(23)

Minería de datos

No es…

Buscar un número telefónico en un directorio

Buscar en Google

Generar histogramas de salarios por grupos de edades

(24)

es…

Encontrar grupos de personas con similares hobbies.

¿Hay mas probabilidad de desarrollar cáncer si se vive

cerca de una línea de poder?

Minería de datos

(25)

Ejemplos

Base de datos

Minería de datos

--

Encontrar las personas que aplicaron a crédito con

apellido Smith.

-Identificar los clientes que compraron mas de

$1,000,000 en el último mes.

-Encontrar todos los clientes que han comprado leche

Encontrar todos los clientes que han comprado leche

Encontrar las personas que aplicaron a crédito con

Encontrar las personas que aplicaron a crédito con

poco riesgo de pago del crédito.

poco riesgo de pago del crédito.

Identificar clientes con tendencias similares de

Identificar clientes con tendencias similares de

compra.

compra.

Encontrar todos los artículos que son comprados

Encontrar todos los artículos que son comprados

frecuentemente con leche.

(26)

Minería de Datos

Generar un

modelo con datos

modelo

Términos similares

“Exploratory data analysis”

“Data driven discovery”

“Deductive learning”

Datos ModeloModelo

Técnica de minería de datos

(27)

Algoritmo de minería de datos

Objetivo: Construir un modelo de los datos

Descriptivo

Predictivo

(28)

Tareas de la

Minería de Datos &

Aplicaciones

(29)
(30)

Sumarizacion

Caracterización de la colección de

datos.

OLAP (On Line Analitical Process).

Tendencias.

(31)

Producto

Producto

Arroz

Azúcar

Sal

Pasta

T1 T2 T3 T4

Tiempo

Tiempo

Cubo de

Cubo de

Ventas

Ventas

Almacén

Almacén

Almacén 1

Almacén 2

Almacén 3

Almacén 4

¿

Cual fue el total de ventas de azúcar en el almacén 4

durante el tiempo T1?

Total de

ventas

(32)

Análisis OLAP

Agregaciones

(33)
(34)

Asociacion

Id

Items

Items

1

1

{pan, leche}

{pan, leche}

2

2

{pan,pañales,cerveza,huevos}

{pan,pañales,cerveza,huevos}

3

3

{leche, pañales,cerveza, gaseosa

{leche, pañales,cerveza, gaseosa

4

4

{pan,leche,pañales,cerveza}

{pan,leche,pañales,cerveza}

5

5

{pan,leche,pañales,gaseosa}

{pan,leche,pañales,gaseosa}

Interés en analizar

Interés en analizar

los datos para

los datos para

aprender

aprender

el comportamiento de

el comportamiento de

las compras de sus

las compras de sus

clientes

clientes

•Promociones de mercadeo

•Manejo de inventario

Descubrir asociaciones, relaciones / correlaciones entre un

conjunto de “items”

(35)

Introducción a la Mineria de Datos y Aplicaciones

Encontrar Asociaciones

Asociaciones, relaciones / correlaciones en

forma de

forma de

reglas

reglas:

X

X

Y

Y

(registros en BD que satisfacen X, también satisfacen Y)

Transaction ID Items Bought

2000

A,B,C

1000

A,C

4000

A,D

5000

B,E,F

Frequent Itemset Support

{A}

75%

{B}

50%

{C}

50%

{A,C}

50%

Min. support 50%

Min. confidence 50%

For rule A

C: support = support({A

C}) = 50%

confidence = support({A

C})/support({A}) = 66.6%

For rule C

A: ?

(36)

Asociacion

Supermercados (Canasta de mercado)

Contratos de Mantenimiento (Que debe hacer el almacén

para potenciar las ventas de contratos de mantenimiento)

98% de la gente que compra llantas y accesorios de

autos también obtiene servicios de mantenimiento

Recomendaciones de paginas Web:

URL1 & URL3 -> URL5

(37)

Clasificación y Predicción

Clasificación: Construir un

modelo por cada clase de

modelo

dato etiquetado usado en el entrenamiento del modelo.

Basado en sus características y usado para clasificar

futuros datos

Predicción: Predecir valores posibles de

(38)

Proceso de Clasificación (Paso 1):

Construcción de modelo (2-clases)

Datos

entrena-miento

NAME RANK

YEARS TENURED

Mike

Assistant Prof

3

no

Mary

Assistant Prof

7

yes

Bill

Professor

2

yes

Jim

Associate Prof

7

yes

Dave

Assistant Prof

6

no

Anne

Associate Prof

3

no

Algoritmos de

Clasificación

IF rank = ‘professor’

Clasificar

(39)

Proceso de Clasificación (Paso 2):

Uso de Modelos en Predicción

Clasificar

Dato de

Texto

NAME RANK

YEARS TENURED

Tom

Assistant Prof

2

no

Mellisa Associate Prof

7

no

George Professor

5

yes

Joseph Assistant Prof

7

yes

Uso de Datos

(Jeff, Professor, 4)

(40)

Clasificación

age income student credit_rating buys_computer <=30 high no fair no

<=30 high no excellent no 30…40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31…40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31…40 medium no excellent yes 31…40 high yes fair yes >40 medium no excellent no

Determinar si clientes compraran determinado producto

age?

student?

credit rating?

no

yes

excellent

fair

<=30

>40

yes

(41)

Clasificación

Aprobación de créditos

Diagnóstico médico

Clasificación de documentos de texto (text mining)

Recomendación de paginas Web automáticamente

Seguridad

(42)

Agrupación

Dividir datos sin etiqueta en

grupos (clusters) de tal

grupos

forma que datos que pertenecen al mismo grupo son

similares, y datos que pertenecen a diferentes grupos

son diferentes

Agrupamiento

(43)

Agrupamiento

Las clases (grupos con significado) indican como las

personas

analizan

y

describen

el mundo

Los humanos tienen la habilidad de dividir los objetos en

grupos (

agrupamiento

) y asignar objetos particulares a esos

grupos (

clasificación

)

Ej:

los niños dividen objetos en fotografías: edificios,

vehículos, gente, animales, plantas

(44)

Cluster Analisis: Clustering

Cluster Análisis

(clustering) es el estudio de técnicas para

encontrar las clases

automáticamente

.

(45)

Diferentes formas de agrupar el mismo

conjunto de datos

Puntos originales

Dos clusters

(46)

Agrupamiento

Sistema visual del humano (espacio Euclideano)

La arbitrariedad en el número de clusters es el mayor problema

en clustering.

Grupos tienen diferentes formas, tamaños en un espacio

n-dimensional

Definición de cluster es impreciso y la mejor definición depende

de la naturaleza de los datos y de los resultados deseados

(47)

Medidas de similaridad/distancia

La medida de

similaridad

es fundamental en la definición del

cluster

Debe ser escogida muy cuidadosamente, ya que la calidad de los

resultados dependen de ella

Se puede usar la

disimilaridad

(distancia)

Dependen de los tipos de datos

Numéricos:

Distancia Euclideana, Minskonski, Mahalanobis, Cosine

Binarios

(48)

Agrupación

(Aplicaciones)

Procesamiento de Imágenes (segmentar imágenes a

color en regiones)

Indexamiento de texto

e imágenes

WWW

Clasificación de paginas Web (usados por motores

de búsqueda -Google)

(49)

Agrupación

(Aplicaciones)

Biología: taxonomia (especies), analisis de información

genética(grupos de genes que tienen funciones similares)

Recuperación de Información (Information retrieval):

Agrupar resultados de búsquedas en la web (cada grupo

contiene aspectos particularres dela consulta) Ej: cine

(comentarios, estrellas, teatros)

Psicología y Medicina: Agrupar diferentes tipos de

depresión, detectar patrones en la distribución temporal de una

enfermedad.

(50)
(51)

Agrupación

(Aplicaciones)

Seguridad: Descubriendo patrones de acceso a redes

(Detección de intrusos)

(52)

Aplicaciones

de “Web Mining”

Personalización automática: Sitios adaptativos facilitan

navegación, búsqueda, etc.

E-commerce: Sitios Web pueden ser construidos mas

amigables

Mercadeo Optimizado (publicidad) para negociar

productos, servicios e información

(53)

Bibliografia

(54)

Referencias

Documento similar

El valor agregado 6 del indicador por universidad se pre- senta en una escala de 0 (mínimo valor obtenido por una universidad del sistema en ese indicador) a 100 (correspondiente

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

• Un BI (business intelligence) es un conjunto de procesos, tecnologías y herramientas que ayuda a convertir datos en información, información en conocimiento y conocimiento en

Por lo que se plantea como objetivo de la investigación adaptar el algoritmo Bayesian Knowledge Tracing utilizando técnicas de programación paralela y distribuida, para disminuir

En la vida útil de los proyectos se genera un gran volumen de información novedosa, que, analizada adecuadamente a través de un proceso de aprendizaje, permite generar el

El fenómeno del cuidado, emerge como necesidad la simbiosis entre el proceso de enfermería y su transcendencia en la investigación científica a través de la enfermería basada

La gestión del conocimiento, como proceso de transformación de datos, información y significado de los mismos, y cuyo propósito principal es aportar tanto a la creación,