Minería de datos (Fases de la minería de datos)

(1)

Miner´ıa de datos (Fases de la miner´ıa de datos)

M. en C. Sergio Luis P ´erez P ´erez

UAM CUAJIMALPA, M ´EXICO, D. F. Trimestre 12-O.

(2)

Fase de integraci ´on y recopilaci ´on I

El primer paso es, en su caso, la integraci ´on de m ´ultiples bases de datos en almacenes de datos (data warehousing).

Un almacen de datos es un conjunto de datos hist ´oricos, internos o externos, que describen un contexto o ´area de estudio.

Un almacen de datos se encuentra organizado de manera que permite aplicar eficientemente las herramientas para resumir, describir y analizar los datos.

Un almacen de datos generalmente maneja modelos de tipo multidimensional.

(3)

Fase de integraci ´on y recopilaci ´on II

En un modelo multidimensional los datos se organizan en torno a hechos que poseen ciertos atributos o medidas que pueden verse con cierto detalle dependiendo de las dimensiones.

Medidas o atributos → cu ánto. Dimensiones → cu ándo, qu é, d ónde. Un almacen de datos es deseable pero no imprescindible. Se puede trabajar con formatos heterog éneos.

Archivos de texto. Hojas de c ´alculo. Bases de datos.

(4)

El proceso de selecci ´on

Consiste en utilizar la informaci ´on adecuada para utilizarla en el modelo de miner´ıa de datos.

Considerar la parte de los datos m ´as pertinentes a analizar. Entender el tipo de conocimiento que se desea extraer y c ´omo se desea presentar.

Destacar el conocimiento que puede ser v ´alido, novedoso e interesante.

Buscar el conocimiento que previo que hace falta para generar el nuevo conocimiento.

(5)

Limpieza de datos I

Al obtener la informaci ´on desde distintas fuentes se debe procurar que datos sobre el mismo objeto se unifiquen. Posibles errores:

Dos o mas datos de diferentes individuos se mezclan → nuevos individuos que pueden ocasionar ruido en el modelo.

Dos o mas fuentes del mismo individuo se replican → ocasiona menos ruido pero si es recurrente llevar ´a a resultados inesperados.

Soluciones:

Identificar patrones similares durante el proceso de mezclado. Por ejemplo:

(6)

Limpieza de datos II

Identificar posibles formatos de claves y unificarlos. Por ejemplo:

{55−58−22−35−71, 55−5822−3571, 58223571, +525558223571}

→ 55 − 58223571

Donde 55 es la lada del estado y 582 de la regi ´on o zona.

Detecci ´on de valores faltantes. Posibles problemas:

El m ´etodo de miner´ıa de datos puede no tratar correctamente estos datos.

Los valores faltantes pueden ocasionar malos c ´alculos de totales, medias.

(7)

Limpieza de datos III

Es importante entender la posible causa que origina el dato faltante. Cuestiones a considerar:

La falta de valores puede expresar caracter´ısticas relevantes.

Ej.: La falta de n ´umero celular pues no todos poseen.

Valores no existentes. Ej.: Quiz ´a el registro -usuario, cliente- es

nuevo y a ´un no tiene historial.

Datos incompletos. Ocasionado por el proceso de mezcla. Una vez que se ha analizado la causa del dato faltante, se pueden dar los siguientes tratamientos:

Ignorar tales datos. Pues algoritmos como los ´arboles de decisi ´on

son sencibles a esos casos.

Eliminar el campo. S ´olo si la cantidad de valores nulos es muy

(8)

Limpieza de datos IV

Filtrar la fila. Puede sesgar los datos.

Reemplazar el valor. Ya sea manualmente o autom ´aticamente en

funciones de otros objetos similares.

Esperar los datos faltantes. Puede retrasar el proyecto. Detecci ón de valores err óneos o an ómalos.

Posibles problemas:

Pueden afectar severamente el resultado.

No necesariamente son err ´oneos sino pueden ser especiales o incluso cruciales seg ´un el tema de estudio.

(9)

Limpieza de datos V

Posibles tratamientos: Ignorar tales datos.

Eliminar el campo. Si es que afecta a campos de mayor calidad. Filtrar la fila. Puede sesgar los datos pues quiz ´as sean casos o

tipos especiales.

Reemplazar el valor.

(10)

Transformaci ´on I

Significa modificar la forma de los datos.

M ´etodo de an ´alisis de componentes principales. Consiste en transformar los atributos o variables originales en otro conjunto tal que

x1,x2, . . . ,xn → y1,y2, . . . ,ym

Donde es deseable que m ≤ n.

An álisis factorial. Intenta reducir el n úmero de atributos utilizando t écnicas de m´ınimos cuadrados, m áxima verosimilitud, entre otras.

(11)

Fase de miner´ıa de datos I

Entender el problema que se desea resolver. Determinar el tipo de modelo a aplicar.

Predictivo. Descriptivo.

Elegir el algoritmo de miner´ıa que resuelva la tarea y/o obtenga el modelo.

(12)

Fase de miner´ıa de datos II

Tareas de la miner´ıa de datos: Clasificaci ´on (Tarea predictiva)

Cada instancia pertenece a una clase distinguidas por un tipo de atributo. Los dem ´as atributos de la instancia se utilizan para predecir la clase.

Ejemplo: Un oftalm ólogo desea determinar cu áles de sus nuevos clientes son candidatos a una cirug´ıa ocular y cu áles no, basado en los resultados de sus clientes anteriores y la evoluci ón de éstos despu és de la cirug´ıa. Algunos factores a considerar son el tipo de enfermedad ocular y algunos padecimientos que pueden afectar la cirug´ıa.

El modelo final clasificar´ıa a los nuevos pacientes como operables o no.

(13)

Fase de miner´ıa de datos III

Regresi ´on (Tarea predictiva)

Consiste en aprender una funci ´on real que asigna a cada instancia un valor real, de manera que el objetivo es predecir un valor num ´erico. Ejemplo: Una constructora desea determinar el costo adecuado para los departamentos que va a construir y vender en una determinada zona. Para ello la constructora se puede basar en el costo de las viviendas cercanas a la zona. El modelo ayudar´ıa a predecir el costo factible de sus nuevos deptos.

Agrupamiento (Tarea descriptiva)

A diferencia de la clasificaci ´on, aqu´ı se busca agrupar a los individuos maximizando el grado de similitud entre las instancias de un mismo grupo y minimizando la similitud entre grupos. Los grupos pueden ser o no disjuntos.

(14)

Fase de miner´ıa de datos IV

Correlaciones (Tarea descriptiva)

Ayudan a determinar el grado de similitud entre variables num éricas. El coeficiente de correlaci ón r , con r ∈ [−1, 1], si r = 0 indica que no hay relaci ón entre las variables, r > 0 indica que las variables estan directamente relacionadas y r < 0 indica relaci ón inversa.

Ejemplo:El departamento de bomberos desea determinar las correlaciones negativas entre el empleo de distintos grosores de protecci ´on de material el ´ectrico y la frecuencia de incendios.

Reglas de asociaci ´on (Tarea descriptiva)

El objetivo es determinar relaciones no evidentes entre atributos categ ´oricos. No necesariamente las reglas son del tipo causa-efecto. Ejemplo: El ejemplo cl ´asico es el de la cesta de compra para organizar los productos f´ısicamente en el supermercado.

(15)

Fase de miner´ıa de datos V

T ´ecnicas de la miner´ıa de datos.

Regresi ón lineal. La f órmula general para una regresi ón lineal es

y = c0+c1x1+ . . .cnxn

xi son los atributos predictores.

y es la salida o variable dependiente.

Regresi ´on no lienal.

y = c0+f1(x1) + . . .fn(xn)

Cuadrados, logaritmos, etc.

M ´etodos bayesianos. Basados en el teorema de bayes.

(16)

Fase de miner´ıa de datos VI

p(H|E) = p(E|H) · P(H)

p(E)

Donde P(A) representa la probabilidad del suceso A y p(A|B) denota la probabilidad del suceso P(A) condicionada al suceso P(B).

´

Arboles de decisi ´on. Son una serie de condiciones organizadas

en forma jer ´arquica, a modo de ´arbol.

Clasificaci ´on, Agrupamiento, Regresi ´on

Instancia pron ´ostico humedad viento jugar

1 soleado alta d ´ebil No

2 nublado alta d ´ebil Si

3 lluvioso alta d ´ebil Si

4 lluvioso normal fuerte No

(17)

Fase de miner´ıa de datos VII

Se puede utilizar la inducci ´on de reglas para derivar el conjunto de condiciones adecuadas para el problema.

Si cond1y cond2y . . . ycondnentonces pred .

Para nuestro ejemplo tenemos que:

Si pron ´ostico = soleado y humedad = normal entonces jugar← s´ı Si pron ´ostico = cubierto entonces jugar← s´ı

Si pron ´ostico = lluvioso y viento = d ´ebil entonces jugar← s´ı

en otro caso ← no

Problemas con la inducci ´on de reglas:

Las reglas no necesariamente forman un ´arbol. Las reglas pueden no cubrir todas las posibilidades. Las reglas pueden entrar en conflicto.

(18)

Fase de miner´ıa de datos VIII

Redes neuronales. Trabajan directamente con n ´umeros y en caso

de que se desee trabajar con datos nominales, ´estos deben numerizarse.

Clasificaci ´on, Agrupamiento, Regresi ´on

Las redes neuronales consisten generalmente de tres capas: de entrada, oculta y de salida. Internamente pueden verse como una gr ´afica dirigida.

Algoritmos evolutivos. Son m ´etodos de b ´usqueda colectiva

dentro de un espacio de soluciones. Se siguen patrones de la evoluci ón biol ógica como el cruce de los genes de los padres para la producci ón de hijos.

Clasificaci ´on, Agrupamiento, Reglas de asociaci ´on

(19)

Fase de miner´ıa de datos IX

Algoritmos gen éticos, estrategia evolutiva, programaci ón gen ética, algoritmos mem éticos, algoritmos culturales, evoluci ón diferencial.

Construcci ´on del modelo.

Es bueno explorar varios modelos.

Tambi ´en es recomendable explorar nuevos modelos mediante otras t ´ecnicas.

Se aconseja que el modelo sea validado utilizando parte de los datos.

(20)

Fase de evaluaci ´on e interpretaci ´on I

T ´ecnicas de evaluaci ´on. Para entrenar y probar un modelo se parten los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de prueba.

Validaci ´on simple. Se utiliza cuando se posee un gran conjunto

de datos. De modo que se elige entre el 5 y 50 % de los datos para la parte de las pruebas.

Validaci ´on cruzada. Se parte el conjunto de datos en dos

conjuntos. Primero se utiliza al primer conjunto para predecir los datos del segundo conjunto y luego se aplica el mismo proceso en modo inverso. Si la cantidad de errores no es muy grande se crea un modelo con ambos conjuntos.

Validaci ´on cruzada con n pliegues. En este caso los datos se

parten en n conjuntos y s ´olo se reserva un conjunto para pruebas. El proceso se repite para los n − 1 grupos restantes.

(21)

Fase de evaluaci ´on e interpretaci ´on II

Bootstrapping. Se sugiere cuando se poseen muy pocos datos.

1 _{Se contruye un modelo con todos los datos.}

2 _{Se crean varios conjuntos de datos llamados bootstrap samples}

haciendo un muestreo de los datos originales con reemplazo (se pueden repetir instancias).

3 _{Se crean tantos modelos como conjuntos de datos se hayan}

generado.

4 _{Con los datos restantes de cada muestreo se hacen las pruebas para}

el c ´alculo del error y se promedian los errores.

Medidas de evaluaci ´on de modelos. Dependen de la tarea sobre la que se este trabajando.

Clasificaci ´on. Se evalua la calidad de los patrones encontrados

respecto a su precisi ´on predictiva.

instancias clasificadas correctamente instancias totales

(22)

Fase de evaluaci ´on e interpretaci ´on III

Reglas de asociaci ´on. Se suele evaluar aquellas reglas que

pueden aplicarse a un n ´umero mayor de instancias. Se suele medir:

Cobertura. N ´umero de instancias a las que la regla predice correctamente.

Confianza. Proporci ´on de instancias que la regla predice correctamente.

Regresi ´on. Dado que la salida de este modelo es un valor

num érico, lo m ás com ún es evaluar utilizando el error cuadr ático medio.

Se utiliza el valor predicho vs el valor utilizado para la validaci ´on. Agrupamiento. Se suele evaluar mediante funciones que nos

proporcionen la cohesi ´on del grupo y la separaci ´on entre grupos.

Por ejemplo calculando la distancia media al centro del grupo y la distancia media entre grupos.

(23)

Fase de difusi ´on y despliegue de resultados

Al final se tiene un modelo que se utilizar ´a para proporcionar recomendaciones.

Tales recomendaciones ayudar ´an en procesos:

De la vida real → solicitud de cr ´editos bancarios, agencias de viajes

Virtuales → detecci ´on de spam, detecci ´on de compras fraudulentas

Se recomienda medir constantemente la evoluci ´on de la funcionalidad del modelo. Por ejemplo ciertos patrones o

recomendaciones respecto a las ventas pueden verse afectados por factores externos como la tasa de inflaci ´on.