• No se han encontrado resultados

Minería de datos (Fases de la minería de datos)

N/A
N/A
Protected

Academic year: 2021

Share "Minería de datos (Fases de la minería de datos)"

Copied!
23
0
0

Texto completo

(1)

Miner´ıa de datos (Fases de la miner´ıa de datos)

M. en C. Sergio Luis P ´erez P ´erez

UAM CUAJIMALPA, M ´EXICO, D. F. Trimestre 12-O.

(2)

Fase de integraci ´on y recopilaci ´on I

El primer paso es, en su caso, la integraci ´on de m ´ultiples bases de datos en almacenes de datos (data warehousing).

Un almacen de datos es un conjunto de datos hist ´oricos, internos o externos, que describen un contexto o ´area de estudio.

Un almacen de datos se encuentra organizado de manera que permite aplicar eficientemente las herramientas para resumir, describir y analizar los datos.

Un almacen de datos generalmente maneja modelos de tipo multidimensional.

(3)

Fase de integraci ´on y recopilaci ´on II

En un modelo multidimensional los datos se organizan en torno a hechos que poseen ciertos atributos o medidas que pueden verse con cierto detalle dependiendo de las dimensiones.

Medidas o atributos → cu ´anto. Dimensiones → cu ´ando, qu ´e, d ´onde. Un almacen de datos es deseable pero no imprescindible. Se puede trabajar con formatos heterog ´eneos.

Archivos de texto. Hojas de c ´alculo. Bases de datos.

(4)

El proceso de selecci ´on

Consiste en utilizar la informaci ´on adecuada para utilizarla en el modelo de miner´ıa de datos.

Considerar la parte de los datos m ´as pertinentes a analizar. Entender el tipo de conocimiento que se desea extraer y c ´omo se desea presentar.

Destacar el conocimiento que puede ser v ´alido, novedoso e interesante.

Buscar el conocimiento que previo que hace falta para generar el nuevo conocimiento.

(5)

Limpieza de datos I

Al obtener la informaci ´on desde distintas fuentes se debe procurar que datos sobre el mismo objeto se unifiquen. Posibles errores:

Dos o mas datos de diferentes individuos se mezclan → nuevos individuos que pueden ocasionar ruido en el modelo.

Dos o mas fuentes del mismo individuo se replican → ocasiona menos ruido pero si es recurrente llevar ´a a resultados inesperados.

Soluciones:

Identificar patrones similares durante el proceso de mezclado. Por ejemplo:

(6)

Limpieza de datos II

Identificar posibles formatos de claves y unificarlos. Por ejemplo:

{55−58−22−35−71, 55−5822−3571, 58223571, +525558223571}

→ 55 − 58223571

Donde 55 es la lada del estado y 582 de la regi ´on o zona.

Detecci ´on de valores faltantes. Posibles problemas:

El m ´etodo de miner´ıa de datos puede no tratar correctamente estos datos.

Los valores faltantes pueden ocasionar malos c ´alculos de totales, medias.

(7)

Limpieza de datos III

Es importante entender la posible causa que origina el dato faltante. Cuestiones a considerar:

La falta de valores puede expresar caracter´ısticas relevantes.

Ej.: La falta de n ´umero celular pues no todos poseen.

Valores no existentes. Ej.: Quiz ´a el registro -usuario, cliente- es

nuevo y a ´un no tiene historial.

Datos incompletos. Ocasionado por el proceso de mezcla. Una vez que se ha analizado la causa del dato faltante, se pueden dar los siguientes tratamientos:

Ignorar tales datos. Pues algoritmos como los ´arboles de decisi ´on

son sencibles a esos casos.

Eliminar el campo. S ´olo si la cantidad de valores nulos es muy

(8)

Limpieza de datos IV

Filtrar la fila. Puede sesgar los datos.

Reemplazar el valor. Ya sea manualmente o autom ´aticamente en

funciones de otros objetos similares.

Esperar los datos faltantes. Puede retrasar el proyecto. Detecci ´on de valores err ´oneos o an ´omalos.

Posibles problemas:

Pueden afectar severamente el resultado.

No necesariamente son err ´oneos sino pueden ser especiales o incluso cruciales seg ´un el tema de estudio.

(9)

Limpieza de datos V

Posibles tratamientos: Ignorar tales datos.

Eliminar el campo. Si es que afecta a campos de mayor calidad. Filtrar la fila. Puede sesgar los datos pues quiz ´as sean casos o

tipos especiales.

Reemplazar el valor.

(10)

Transformaci ´on I

Significa modificar la forma de los datos.

M ´etodo de an ´alisis de componentes principales. Consiste en transformar los atributos o variables originales en otro conjunto tal que

x1,x2, . . . ,xn → y1,y2, . . . ,ym

Donde es deseable que m ≤ n.

An ´alisis factorial. Intenta reducir el n ´umero de atributos utilizando t ´ecnicas de m´ınimos cuadrados, m ´axima verosimilitud, entre otras.

(11)

Fase de miner´ıa de datos I

Entender el problema que se desea resolver. Determinar el tipo de modelo a aplicar.

Predictivo. Descriptivo.

Elegir el algoritmo de miner´ıa que resuelva la tarea y/o obtenga el modelo.

(12)

Fase de miner´ıa de datos II

Tareas de la miner´ıa de datos: Clasificaci ´on (Tarea predictiva)

Cada instancia pertenece a una clase distinguidas por un tipo de atributo. Los dem ´as atributos de la instancia se utilizan para predecir la clase.

Ejemplo: Un oftalm ´ologo desea determinar cu ´ales de sus nuevos clientes son candidatos a una cirug´ıa ocular y cu ´ales no, basado en los resultados de sus clientes anteriores y la evoluci ´on de ´estos despu ´es de la cirug´ıa. Algunos factores a considerar son el tipo de enfermedad ocular y algunos padecimientos que pueden afectar la cirug´ıa.

El modelo final clasificar´ıa a los nuevos pacientes como operables o no.

(13)

Fase de miner´ıa de datos III

Regresi ´on (Tarea predictiva)

Consiste en aprender una funci ´on real que asigna a cada instancia un valor real, de manera que el objetivo es predecir un valor num ´erico. Ejemplo: Una constructora desea determinar el costo adecuado para los departamentos que va a construir y vender en una determinada zona. Para ello la constructora se puede basar en el costo de las viviendas cercanas a la zona. El modelo ayudar´ıa a predecir el costo factible de sus nuevos deptos.

Agrupamiento (Tarea descriptiva)

A diferencia de la clasificaci ´on, aqu´ı se busca agrupar a los individuos maximizando el grado de similitud entre las instancias de un mismo grupo y minimizando la similitud entre grupos. Los grupos pueden ser o no disjuntos.

(14)

Fase de miner´ıa de datos IV

Correlaciones (Tarea descriptiva)

Ayudan a determinar el grado de similitud entre variables num ´ericas. El coeficiente de correlaci ´on r , con r ∈ [−1, 1], si r = 0 indica que no hay relaci ´on entre las variables, r > 0 indica que las variables estan directamente relacionadas y r < 0 indica relaci ´on inversa.

Ejemplo:El departamento de bomberos desea determinar las correlaciones negativas entre el empleo de distintos grosores de protecci ´on de material el ´ectrico y la frecuencia de incendios.

Reglas de asociaci ´on (Tarea descriptiva)

El objetivo es determinar relaciones no evidentes entre atributos categ ´oricos. No necesariamente las reglas son del tipo causa-efecto. Ejemplo: El ejemplo cl ´asico es el de la cesta de compra para organizar los productos f´ısicamente en el supermercado.

(15)

Fase de miner´ıa de datos V

T ´ecnicas de la miner´ıa de datos.

Regresi ´on lineal. La f ´ormula general para una regresi ´on lineal es

y = c0+c1x1+ . . .cnxn

xi son los atributos predictores.

y es la salida o variable dependiente.

Regresi ´on no lienal.

y = c0+f1(x1) + . . .fn(xn)

Cuadrados, logaritmos, etc.

M ´etodos bayesianos. Basados en el teorema de bayes.

(16)

Fase de miner´ıa de datos VI

p(H|E) = p(E|H) · P(H)

p(E)

Donde P(A) representa la probabilidad del suceso A y p(A|B) denota la probabilidad del suceso P(A) condicionada al suceso P(B).

´

Arboles de decisi ´on. Son una serie de condiciones organizadas

en forma jer ´arquica, a modo de ´arbol.

Clasificaci ´on, Agrupamiento, Regresi ´on

Instancia pron ´ostico humedad viento jugar

1 soleado alta d ´ebil No

2 nublado alta d ´ebil Si

3 lluvioso alta d ´ebil Si

4 lluvioso normal fuerte No

(17)

Fase de miner´ıa de datos VII

Se puede utilizar la inducci ´on de reglas para derivar el conjunto de condiciones adecuadas para el problema.

Si cond1y cond2y . . . ycondnentonces pred .

Para nuestro ejemplo tenemos que:

Si pron ´ostico = soleado y humedad = normal entonces jugar← s´ı Si pron ´ostico = cubierto entonces jugar← s´ı

Si pron ´ostico = lluvioso y viento = d ´ebil entonces jugar← s´ı

en otro caso ← no

Problemas con la inducci ´on de reglas:

Las reglas no necesariamente forman un ´arbol. Las reglas pueden no cubrir todas las posibilidades. Las reglas pueden entrar en conflicto.

(18)

Fase de miner´ıa de datos VIII

Redes neuronales. Trabajan directamente con n ´umeros y en caso

de que se desee trabajar con datos nominales, ´estos deben numerizarse.

Clasificaci ´on, Agrupamiento, Regresi ´on

Las redes neuronales consisten generalmente de tres capas: de entrada, oculta y de salida. Internamente pueden verse como una gr ´afica dirigida.

Algoritmos evolutivos. Son m ´etodos de b ´usqueda colectiva

dentro de un espacio de soluciones. Se siguen patrones de la evoluci ´on biol ´ogica como el cruce de los genes de los padres para la producci ´on de hijos.

Clasificaci ´on, Agrupamiento, Reglas de asociaci ´on

(19)

Fase de miner´ıa de datos IX

Algoritmos gen ´eticos, estrategia evolutiva, programaci ´on gen ´etica, algoritmos mem ´eticos, algoritmos culturales, evoluci ´on diferencial.

Construcci ´on del modelo.

Es bueno explorar varios modelos.

Tambi ´en es recomendable explorar nuevos modelos mediante otras t ´ecnicas.

Se aconseja que el modelo sea validado utilizando parte de los datos.

(20)

Fase de evaluaci ´on e interpretaci ´on I

T ´ecnicas de evaluaci ´on. Para entrenar y probar un modelo se parten los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de prueba.

Validaci ´on simple. Se utiliza cuando se posee un gran conjunto

de datos. De modo que se elige entre el 5 y 50 % de los datos para la parte de las pruebas.

Validaci ´on cruzada. Se parte el conjunto de datos en dos

conjuntos. Primero se utiliza al primer conjunto para predecir los datos del segundo conjunto y luego se aplica el mismo proceso en modo inverso. Si la cantidad de errores no es muy grande se crea un modelo con ambos conjuntos.

Validaci ´on cruzada con n pliegues. En este caso los datos se

parten en n conjuntos y s ´olo se reserva un conjunto para pruebas. El proceso se repite para los n − 1 grupos restantes.

(21)

Fase de evaluaci ´on e interpretaci ´on II

Bootstrapping. Se sugiere cuando se poseen muy pocos datos.

1 Se contruye un modelo con todos los datos.

2 Se crean varios conjuntos de datos llamados bootstrap samples

haciendo un muestreo de los datos originales con reemplazo (se pueden repetir instancias).

3 Se crean tantos modelos como conjuntos de datos se hayan

generado.

4 Con los datos restantes de cada muestreo se hacen las pruebas para

el c ´alculo del error y se promedian los errores.

Medidas de evaluaci ´on de modelos. Dependen de la tarea sobre la que se este trabajando.

Clasificaci ´on. Se evalua la calidad de los patrones encontrados

respecto a su precisi ´on predictiva.

instancias clasificadas correctamente instancias totales

(22)

Fase de evaluaci ´on e interpretaci ´on III

Reglas de asociaci ´on. Se suele evaluar aquellas reglas que

pueden aplicarse a un n ´umero mayor de instancias. Se suele medir:

Cobertura. N ´umero de instancias a las que la regla predice correctamente.

Confianza. Proporci ´on de instancias que la regla predice correctamente.

Regresi ´on. Dado que la salida de este modelo es un valor

num ´erico, lo m ´as com ´un es evaluar utilizando el error cuadr ´atico medio.

Se utiliza el valor predicho vs el valor utilizado para la validaci ´on. Agrupamiento. Se suele evaluar mediante funciones que nos

proporcionen la cohesi ´on del grupo y la separaci ´on entre grupos.

Por ejemplo calculando la distancia media al centro del grupo y la distancia media entre grupos.

(23)

Fase de difusi ´on y despliegue de resultados

Al final se tiene un modelo que se utilizar ´a para proporcionar recomendaciones.

Tales recomendaciones ayudar ´an en procesos:

De la vida real → solicitud de cr ´editos bancarios, agencias de viajes

Virtuales → detecci ´on de spam, detecci ´on de compras fraudulentas

Se recomienda medir constantemente la evoluci ´on de la funcionalidad del modelo. Por ejemplo ciertos patrones o

recomendaciones respecto a las ventas pueden verse afectados por factores externos como la tasa de inflaci ´on.

Referencias

Documento similar

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

[r]

[r]

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

•cero que suplo con arreglo á lo que dice el autor en el Prólogo de su obra impresa: «Ya estaba estendida esta Noticia, año de 1750; y pareció forzo- so detener su impresión