Miner´ıa de datos (Fases de la miner´ıa de datos)
M. en C. Sergio Luis P ´erez P ´erez
UAM CUAJIMALPA, M ´EXICO, D. F. Trimestre 12-O.
Fase de integraci ´on y recopilaci ´on I
El primer paso es, en su caso, la integraci ´on de m ´ultiples bases de datos en almacenes de datos (data warehousing).
Un almacen de datos es un conjunto de datos hist ´oricos, internos o externos, que describen un contexto o ´area de estudio.
Un almacen de datos se encuentra organizado de manera que permite aplicar eficientemente las herramientas para resumir, describir y analizar los datos.
Un almacen de datos generalmente maneja modelos de tipo multidimensional.
Fase de integraci ´on y recopilaci ´on II
En un modelo multidimensional los datos se organizan en torno a hechos que poseen ciertos atributos o medidas que pueden verse con cierto detalle dependiendo de las dimensiones.
Medidas o atributos → cu ´anto. Dimensiones → cu ´ando, qu ´e, d ´onde. Un almacen de datos es deseable pero no imprescindible. Se puede trabajar con formatos heterog ´eneos.
Archivos de texto. Hojas de c ´alculo. Bases de datos.
El proceso de selecci ´on
Consiste en utilizar la informaci ´on adecuada para utilizarla en el modelo de miner´ıa de datos.
Considerar la parte de los datos m ´as pertinentes a analizar. Entender el tipo de conocimiento que se desea extraer y c ´omo se desea presentar.
Destacar el conocimiento que puede ser v ´alido, novedoso e interesante.
Buscar el conocimiento que previo que hace falta para generar el nuevo conocimiento.
Limpieza de datos I
Al obtener la informaci ´on desde distintas fuentes se debe procurar que datos sobre el mismo objeto se unifiquen. Posibles errores:
Dos o mas datos de diferentes individuos se mezclan → nuevos individuos que pueden ocasionar ruido en el modelo.
Dos o mas fuentes del mismo individuo se replican → ocasiona menos ruido pero si es recurrente llevar ´a a resultados inesperados.
Soluciones:
Identificar patrones similares durante el proceso de mezclado. Por ejemplo:
Limpieza de datos II
Identificar posibles formatos de claves y unificarlos. Por ejemplo:
{55−58−22−35−71, 55−5822−3571, 58223571, +525558223571}
→ 55 − 58223571
Donde 55 es la lada del estado y 582 de la regi ´on o zona.
Detecci ´on de valores faltantes. Posibles problemas:
El m ´etodo de miner´ıa de datos puede no tratar correctamente estos datos.
Los valores faltantes pueden ocasionar malos c ´alculos de totales, medias.
Limpieza de datos III
Es importante entender la posible causa que origina el dato faltante. Cuestiones a considerar:
La falta de valores puede expresar caracter´ısticas relevantes.
Ej.: La falta de n ´umero celular pues no todos poseen.
Valores no existentes. Ej.: Quiz ´a el registro -usuario, cliente- es
nuevo y a ´un no tiene historial.
Datos incompletos. Ocasionado por el proceso de mezcla. Una vez que se ha analizado la causa del dato faltante, se pueden dar los siguientes tratamientos:
Ignorar tales datos. Pues algoritmos como los ´arboles de decisi ´on
son sencibles a esos casos.
Eliminar el campo. S ´olo si la cantidad de valores nulos es muy
Limpieza de datos IV
Filtrar la fila. Puede sesgar los datos.
Reemplazar el valor. Ya sea manualmente o autom ´aticamente en
funciones de otros objetos similares.
Esperar los datos faltantes. Puede retrasar el proyecto. Detecci ´on de valores err ´oneos o an ´omalos.
Posibles problemas:
Pueden afectar severamente el resultado.
No necesariamente son err ´oneos sino pueden ser especiales o incluso cruciales seg ´un el tema de estudio.
Limpieza de datos V
Posibles tratamientos: Ignorar tales datos.
Eliminar el campo. Si es que afecta a campos de mayor calidad. Filtrar la fila. Puede sesgar los datos pues quiz ´as sean casos o
tipos especiales.
Reemplazar el valor.
Transformaci ´on I
Significa modificar la forma de los datos.
M ´etodo de an ´alisis de componentes principales. Consiste en transformar los atributos o variables originales en otro conjunto tal que
x1,x2, . . . ,xn → y1,y2, . . . ,ym
Donde es deseable que m ≤ n.
An ´alisis factorial. Intenta reducir el n ´umero de atributos utilizando t ´ecnicas de m´ınimos cuadrados, m ´axima verosimilitud, entre otras.
Fase de miner´ıa de datos I
Entender el problema que se desea resolver. Determinar el tipo de modelo a aplicar.
Predictivo. Descriptivo.
Elegir el algoritmo de miner´ıa que resuelva la tarea y/o obtenga el modelo.
Fase de miner´ıa de datos II
Tareas de la miner´ıa de datos: Clasificaci ´on (Tarea predictiva)
Cada instancia pertenece a una clase distinguidas por un tipo de atributo. Los dem ´as atributos de la instancia se utilizan para predecir la clase.
Ejemplo: Un oftalm ´ologo desea determinar cu ´ales de sus nuevos clientes son candidatos a una cirug´ıa ocular y cu ´ales no, basado en los resultados de sus clientes anteriores y la evoluci ´on de ´estos despu ´es de la cirug´ıa. Algunos factores a considerar son el tipo de enfermedad ocular y algunos padecimientos que pueden afectar la cirug´ıa.
El modelo final clasificar´ıa a los nuevos pacientes como operables o no.
Fase de miner´ıa de datos III
Regresi ´on (Tarea predictiva)Consiste en aprender una funci ´on real que asigna a cada instancia un valor real, de manera que el objetivo es predecir un valor num ´erico. Ejemplo: Una constructora desea determinar el costo adecuado para los departamentos que va a construir y vender en una determinada zona. Para ello la constructora se puede basar en el costo de las viviendas cercanas a la zona. El modelo ayudar´ıa a predecir el costo factible de sus nuevos deptos.
Agrupamiento (Tarea descriptiva)
A diferencia de la clasificaci ´on, aqu´ı se busca agrupar a los individuos maximizando el grado de similitud entre las instancias de un mismo grupo y minimizando la similitud entre grupos. Los grupos pueden ser o no disjuntos.
Fase de miner´ıa de datos IV
Correlaciones (Tarea descriptiva)Ayudan a determinar el grado de similitud entre variables num ´ericas. El coeficiente de correlaci ´on r , con r ∈ [−1, 1], si r = 0 indica que no hay relaci ´on entre las variables, r > 0 indica que las variables estan directamente relacionadas y r < 0 indica relaci ´on inversa.
Ejemplo:El departamento de bomberos desea determinar las correlaciones negativas entre el empleo de distintos grosores de protecci ´on de material el ´ectrico y la frecuencia de incendios.
Reglas de asociaci ´on (Tarea descriptiva)
El objetivo es determinar relaciones no evidentes entre atributos categ ´oricos. No necesariamente las reglas son del tipo causa-efecto. Ejemplo: El ejemplo cl ´asico es el de la cesta de compra para organizar los productos f´ısicamente en el supermercado.
Fase de miner´ıa de datos V
T ´ecnicas de la miner´ıa de datos.
Regresi ´on lineal. La f ´ormula general para una regresi ´on lineal es
y = c0+c1x1+ . . .cnxn
xi son los atributos predictores.
y es la salida o variable dependiente.
Regresi ´on no lienal.
y = c0+f1(x1) + . . .fn(xn)
Cuadrados, logaritmos, etc.
M ´etodos bayesianos. Basados en el teorema de bayes.
Fase de miner´ıa de datos VI
p(H|E) = p(E|H) · P(H)
p(E)
Donde P(A) representa la probabilidad del suceso A y p(A|B) denota la probabilidad del suceso P(A) condicionada al suceso P(B).
´
Arboles de decisi ´on. Son una serie de condiciones organizadas
en forma jer ´arquica, a modo de ´arbol.
Clasificaci ´on, Agrupamiento, Regresi ´on
Instancia pron ´ostico humedad viento jugar
1 soleado alta d ´ebil No
2 nublado alta d ´ebil Si
3 lluvioso alta d ´ebil Si
4 lluvioso normal fuerte No
Fase de miner´ıa de datos VII
Se puede utilizar la inducci ´on de reglas para derivar el conjunto de condiciones adecuadas para el problema.
Si cond1y cond2y . . . ycondnentonces pred .
Para nuestro ejemplo tenemos que:
Si pron ´ostico = soleado y humedad = normal entonces jugar← s´ı Si pron ´ostico = cubierto entonces jugar← s´ı
Si pron ´ostico = lluvioso y viento = d ´ebil entonces jugar← s´ı
en otro caso ← no
Problemas con la inducci ´on de reglas:
Las reglas no necesariamente forman un ´arbol. Las reglas pueden no cubrir todas las posibilidades. Las reglas pueden entrar en conflicto.
Fase de miner´ıa de datos VIII
Redes neuronales. Trabajan directamente con n ´umeros y en caso
de que se desee trabajar con datos nominales, ´estos deben numerizarse.
Clasificaci ´on, Agrupamiento, Regresi ´on
Las redes neuronales consisten generalmente de tres capas: de entrada, oculta y de salida. Internamente pueden verse como una gr ´afica dirigida.
Algoritmos evolutivos. Son m ´etodos de b ´usqueda colectiva
dentro de un espacio de soluciones. Se siguen patrones de la evoluci ´on biol ´ogica como el cruce de los genes de los padres para la producci ´on de hijos.
Clasificaci ´on, Agrupamiento, Reglas de asociaci ´on
Fase de miner´ıa de datos IX
Algoritmos gen ´eticos, estrategia evolutiva, programaci ´on gen ´etica, algoritmos mem ´eticos, algoritmos culturales, evoluci ´on diferencial.
Construcci ´on del modelo.
Es bueno explorar varios modelos.
Tambi ´en es recomendable explorar nuevos modelos mediante otras t ´ecnicas.
Se aconseja que el modelo sea validado utilizando parte de los datos.
Fase de evaluaci ´on e interpretaci ´on I
T ´ecnicas de evaluaci ´on. Para entrenar y probar un modelo se parten los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de prueba.
Validaci ´on simple. Se utiliza cuando se posee un gran conjunto
de datos. De modo que se elige entre el 5 y 50 % de los datos para la parte de las pruebas.
Validaci ´on cruzada. Se parte el conjunto de datos en dos
conjuntos. Primero se utiliza al primer conjunto para predecir los datos del segundo conjunto y luego se aplica el mismo proceso en modo inverso. Si la cantidad de errores no es muy grande se crea un modelo con ambos conjuntos.
Validaci ´on cruzada con n pliegues. En este caso los datos se
parten en n conjuntos y s ´olo se reserva un conjunto para pruebas. El proceso se repite para los n − 1 grupos restantes.
Fase de evaluaci ´on e interpretaci ´on II
Bootstrapping. Se sugiere cuando se poseen muy pocos datos.
1 Se contruye un modelo con todos los datos.
2 Se crean varios conjuntos de datos llamados bootstrap samples
haciendo un muestreo de los datos originales con reemplazo (se pueden repetir instancias).
3 Se crean tantos modelos como conjuntos de datos se hayan
generado.
4 Con los datos restantes de cada muestreo se hacen las pruebas para
el c ´alculo del error y se promedian los errores.
Medidas de evaluaci ´on de modelos. Dependen de la tarea sobre la que se este trabajando.
Clasificaci ´on. Se evalua la calidad de los patrones encontrados
respecto a su precisi ´on predictiva.
instancias clasificadas correctamente instancias totales
Fase de evaluaci ´on e interpretaci ´on III
Reglas de asociaci ´on. Se suele evaluar aquellas reglas que
pueden aplicarse a un n ´umero mayor de instancias. Se suele medir:
Cobertura. N ´umero de instancias a las que la regla predice correctamente.
Confianza. Proporci ´on de instancias que la regla predice correctamente.
Regresi ´on. Dado que la salida de este modelo es un valor
num ´erico, lo m ´as com ´un es evaluar utilizando el error cuadr ´atico medio.
Se utiliza el valor predicho vs el valor utilizado para la validaci ´on. Agrupamiento. Se suele evaluar mediante funciones que nos
proporcionen la cohesi ´on del grupo y la separaci ´on entre grupos.
Por ejemplo calculando la distancia media al centro del grupo y la distancia media entre grupos.
Fase de difusi ´on y despliegue de resultados
Al final se tiene un modelo que se utilizar ´a para proporcionar recomendaciones.
Tales recomendaciones ayudar ´an en procesos:
De la vida real → solicitud de cr ´editos bancarios, agencias de viajes
Virtuales → detecci ´on de spam, detecci ´on de compras fraudulentas
Se recomienda medir constantemente la evoluci ´on de la funcionalidad del modelo. Por ejemplo ciertos patrones o
recomendaciones respecto a las ventas pueden verse afectados por factores externos como la tasa de inflaci ´on.