Fase de selección, limpieza y transformación

“Lo que sabemos es una gota de agua; lo que ignoramos es el océano”

2.2. Fase de selección, limpieza y transformación

La calidad del conocimiento descubierto no solo depende del algorit- mo de minería utilizado, sino también de la calidad de los datos mina- dos. Por ello, después de la recopilación, el siguiente paso en el proceso de la extracción de conocimiento es seleccionar y preparar el subconjunto de datos que se va a minar, los cuales constituyen lo que se conoce como vista minable. Este paso es necesario ya que algunos datos coleccionados en la fase anterior son irrelevantes o innecesarios para la tarea de minería que se desea realizar.

Pero además de la irrelevancia, existen otros problemas que afectan a la calidad de los datos. Uno de estos problemas es la presencia de valores que no se ajustan al comportamiento general de los datos. Estos datos anómalos pueden representar errores en los datos o pueden ser valores correctos que son simplemente diferentes a los demás. Algunos algoritmos de minería de datos ignoran estos datos, otros los descartan considerándolos ruido o excepciones, pero otros son muy sensibles y el resultado se ve claramente perjudicado por ello. Sin embargo, no siempre es conveniente eliminarlos, ya que en algunas aplicaciones como la detección de compras fraudulentas por tarjeta de crédito o la predicción de inundaciones, los eventos raros pueden ser más interesantes que los regulares.

La recopilación de datos debe ir acompañada de una limpieza e inte- gración de los mismos, para que estos estén en condiciones para su análisis. Los beneficios del análisis y de la extracción de conocimiento a partir de datos dependen, en gran medida, de la calidad de los datos recopilados. Además, generalmente, debido a las características pro- pias de las técnicas de minería de datos, es necesario realizar una transformación de los datos para obtener una materia prima que sea adecuada para el propósito concreto y las técnicas que se quieren em- plear. En definitiva, el éxito de un proceso de minería de datos depende, no sólo de tener todos los datos necesarios, sino de que éstos estén ínte- gros, completos y consistentes.

2.2.1.Limpieza y transformación

En la mayoría de bases de datos existe mucha información que es incorrecta respecto al dominio de la realidad que se desea cubrir y un número menor, pero a veces también relevante, de datos inconsistentes. Estos problemas se acentúan cuando se realiza la integración de distintas fuentes. No obstante, mientras los datos erróneos crecen de manera lineal respecto al tamaño de los datos recopilados, los datos inconsistentes se multiplican. Un aspecto muy importante a la hora de realizar los procesos de integración, limpieza y transformación, es que se debe conocer el dominio de donde provienen los datos.

La transformación de datos engloba, en realidad, cualquier proceso que modifique la forma de los datos. Prácticamente todos los procesos de preparación de datos involucran algún tipo de transformación. Existen distintas operaciones que transforman atributos, algunas transforman un conjunto de atributos en otros, o bien derivan nuevos atributos, o bien cambian el tipo (mediante numerización o discretiza- ción) o el rango (mediante escalado).

La alta dimensionalidad es, muchas veces, un gran problema a la hora de aprender de los datos. Si existen muchas dimensiones (atributos) respecto a la cantidad de instancias o ejemplos, se estará en presencia de una situación poco deseable al existir tantos grados de libertad, los patrones extraídos pueden ser caprichosos y poco robustos. Visual- mente, se está en presencia de un espacio prácticamente vacío y, por lo tanto, los patrones no tienen datos donde apoyarse a la hora de tomar una u otra forma. Este problema se conoce popularmente como la maldición de la dimensionalidad (the curse of dimensionality). Aun- que este es el problema mayor y es motivación suficiente para intentar reducir la dimensionalidad, especialmente si se tienen pocos ejemplos, existen otros problemas, como por ejemplo, la eficiencia y la dificul- tad de representación de los datos (en principio, sólo podemos representar visualmente tres dimensiones).

La reducción de la dimensionalidad, se puede realizar por selección de un subconjunto de atributos o bien se puede realizar por transforma- ción, sustituyendo el conjunto de atributos iniciales por otros diferentes que, geométricamente, se denomina proyección. Existen muchas técnicas para realizar este tipo de proyección (o que pueden ayudar en este propósito): análisis de componentes principales, algunas técnicas de análisis factorial, uso de mapas auto-organizativos, etc.

La presencia de datos faltantes o perdidos puede ser también un problema que conduzca a resultados poco precisos. No obstante, es necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar ninguna decisión sobre cómo tratarlos ya que estos

pueden deberse a causas muy diversas, como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados durante la colección de los datos o al hecho de que los datos se recopilen desde fuente diversas. Por ello, existen muchas aproximaciones para manejar los datos faltantes.

La selección de atributos relevantes es uno de los pre-procesamientos más importantes, ya que es crucial que los atributos utilizados sean relevantes para la tarea de minería de datos. Idealmente, se podría usar todas las variables y dejar que la herramienta de minería de datos fue- ra probando hasta elegir las mejores variables predictoras. Obviamen- te, esta forma de trabajar no funciona bien, entre otras cosas porque el tiempo requerido para construir un modelo crece con el número de variables. Varios trabajos se han propuesto para resolver estos problemas (Somol y otros, 1999; Maji y otros, 2010; Zeng y otros, 2010; Hou y otros, 2010; Parthaláin y otros, 2010).

Otra tarea de preparación de los datos es la construcción de atributos, la cual consiste en construir automáticamente nuevos atributos apli- cando alguna operación o función a los atributos originales con objeto de que estos nuevos atributos hagan más fácil el proceso de minería. La motivación principal para esta tarea es fuerte cuando los atributos originales no tienen mucho poder predictivo por si solos o los patrones dependen de variaciones lineales de las variables originales.

Uno de los aspectos más importantes de un atributo, sino el que más, es el tipo. El hecho de que un atributo sea nominal o numérico deter- mina en gran medida, cómo va a ser tratado por las herramientas de minería de datos. En algunas situaciones puede ser conveniente con- vertir un numérico a nominal (discretización) o viceversa (numeriza- ción) para facilitar el uso de técnicas que requieren tipos de datos es- pecíficos. Así, algunos atributos se pueden numerizar, lo que reduce el espacio y permite técnicas numéricas. El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar valores numé- ricos en atributos discretos o nominales. Los atributos discretizados pueden tratarse como atributos categóricos con un número más pe- queño de valores. La idea básica es partir los valores de un atributo continuo en una pequeña lista de intervalos, tal que cada intervalo es visto como un valor discreto del atributo.

2.2.1.1.Discretización

La discretización o cuantización es la conversión de un valor numéri- co en un valor nominal ordenado que representa un intervalo. No obstante, el orden del atributo nominal puede ser preservado y utilizado

por los pasos subsiguientes o bien puede olvidarse y tratarse el atribu- to como un valor nominal sin orden.

La discretización, en general, se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos. Existen más razones para discretizar como, por ejemplo, el hecho de que las diferencias en ciertas zonas del rango de valores sean más importantes que en otras, o dicho más técnicamente, cuando la interpretación de la medida no sea lineal. Una última razón es cuando se tiene algunos atributos nominales y otros numéricos y se desea que todos sean nominales para, por ejemplo, establecer reglas de asociación.

Si bien la discretización de una variable puede ser realizada de manera arbitraria visualizando los valores de esa variable, se han presentado trabajos que realizan esta tarea de manera automática [37] [40].

2.2.1.2.Numerización

La numerización es el proceso inverso a la discretización. Aunque es menos común que la discretización, también existen casos donde puede ser extremadamente útil. Un primer caso donde la numerización es útil es cuando el método de minería de datos que se va a utilizar no admite datos nominales. Un claro ejemplo, es si se pretende utilizar regresión lineal para obtener la influencia de cada factor. En general, es preciso para mucho de los métodos de modelización estadística, como la regresión logística, el análisis ANOVA, los modelos log- linear, los discriminantes paramétricos o no paramétricos, etc.

En todos estos casos lo que se suele hacer es lo que se denomina nu-

merización 1 a n que consiste en la creación de varias variables indi-

cadoras. Si una variable nominal tiene n posibles valores se crean n

variables numéricas, con valores 0 o 1 dependiendo de si la variable toma ese valor o no.

2.2.1.3.Normalización de rango: escalado y centrado

En general, en muchos métodos de minería de datos no es necesario centrar los datos ni escalar, es decir normalizar el rango de un valor numérico. De hecho, cuando se usan métodos como los árboles de decisión o los sistemas de reglas, que son comprensibles, escalar pre- viamente hace que los modelos resultantes sean más difíciles de inter- pretar, ya que hay que invertir el escalado final.

Sin embargo, en otros casos, es necesario normalizar todos los atributos al mismo rango, como por ejemplo en los algoritmos basados en distancias, ya que las distancias debidas a diferencias de un atributo que va entre 0 y 100 serán mucho mayores que las distancias debidas

a diferencias de un atributo que va entre 0 y 1. La normalización más común es la normalización lineal uniforme y se normaliza a una escala genérica entre cero y uno utilizando la siguiente fórmula:

�′₌ �−��

��−��

2.2.2.Exploración y selección

Una vez que los datos están recopilados, integrados y limpios, aún no se está en condiciones de realizar la tarea de minería de datos. Es necesario, además, realizar un reconocimiento o análisis exploratorio de los datos con el objetivo de conocerlos mejor de cara a la tarea de minería de datos. Incluso esta fase es imprescindible cuando se realiza minería de datos abierta, ya que tenemos todo el volumen de datos pero hemos de determinar los datos a seleccionar y las tareas a realizar sobre esos datos.

Hace ya algunos años, apareció el término minería de datos visual (visual data mining) [94] con el significado de una minería de datos que se realiza manejando e interactuando con gráficos. El concepto de minería de datos visual es interesante como híbrido entre la minería de datos y la visualización de datos más tradicional [16], pero, en general, no se puede hacer minería de datos sólo con gráficas. Precisa- mente lo que caracteriza la minería de datos de técnicas anteriores o de la perspectiva más clásica del análisis de datos es que los modelos son extraídos por algoritmos y, por tanto, no son vistos o descubiertos visualmente por el usuario (y posteriormente simplemente validados estadísticamente).

La salida o resultado de las técnicas de la exploración es una vista minable tipada con instrucciones sobre qué datos trabajar, qué tarea realizar y de qué manera obtener el conocimiento. Una vista minable [58] consiste en una vista en el sentido más clásico de base de datos; una tabla. La mayoría de métodos de minería de datos son sólo capa- ces de tratar una tabla en cada tarea. Por lo tanto, la vista minable ha de recoger toda la información necesaria para realizar la tarea de mi- nería de datos.

Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos:

 Aprovechar la gran capacidad humana de ver patrones, ano-

malías y tendencias a partir de imágenes y facilitar la compre- sión de los datos.

 Ayudar al usuario a comprender más rápidamente patrones descubiertos automáticamente por un sistema de extracción de conocimiento.

Estos dos objetivos marcan dos momentos diferentes del uso de la visualización de los datos:

 Visualización previa: esta es la que normalmente recibe el

nombre de minería de datos visual. Se utiliza para entender mejor los datos y sugerir posibles patrones o qué tipo de herramienta de minería de datos utilizar. La visualización previa se utiliza frecuentemente para ver tendencias y resúmenes de los datos.

 Visualización posterior al proceso de minería de datos: se uti-

liza para mostrar los patrones y entenderlos mejor. La visuali- zación posterior se utiliza frecuentemente para validad y mostrar a los expertos los resultados de la extracción de conocimiento.

In document Extracción de conocimiento en grandes bases de datos utilizando estrategias adaptativas (página 30-35)