FUNDAMENTOS DE DATA WAREHOUSE

(1)

FUNDAMENTOS DE DATA WAREHOUSE

1. ¿Qué es Data Warehouse?

El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos, etc.) y brindar una visión integrada de dicha información, especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización.

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Es un sitio donde se almacena de manera integrada toda la información resultante de la operatoria diaria de la organización. Además, se almacenan datos estratégicos y tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas a obtener información oculta (Data Mining). Esta información incluye movimientos que modifican el estado del negocio, cualquier interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que ayude a comprender la evolución del negocio.

Esta tecnología ayuda a la organización a responder preguntas esenciales para la toma de decisiones que le permitan obtener ventajas competitivas y mejorar su posición en el mercado en el que operan. Algunas de las preguntas podrían ser:

 _{¿Cuál es el perfil de mis clientes?}  _{¿Cómo es su comportamiento?}  _{¿Cuál es la rentabilidad que me deja?}  _{¿Cuál es el riesgo que corro con él?}

 _{¿Qué servicios y productos utiliza y cómo puedo incrementarlos?}  _Etc.

(2)

2. Características de un Data Warehouse.

Integrado.

Los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. En la siguiente imagen podemos ver cómo se maneja la información en distintas aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de información para que uniformice los datos y se introduzcan al repositorio

(3)

Temático

. Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.

En la siguiente imagen se muestra cómo se maneja un sistema de información orientada a sus aplicaciones y otra temática una diferencia importante entre estas está en la interrelación de la información. Los datos operacionales (aplicaciones) mantienen una relación continua entre dos o más tablas basadas en una regla comercial. Las del data warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse (podremos indagar en toda la información pasada relacionada entre todas las aplicaciones).

(4)

De tiempo variante

. El tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

Los datos históricos son de poco uso en el procedimiento operacional. La información del depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias.

1. La más simple es que la información representa los datos sobre un horizonte largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto - desde valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas. 2. La segunda manera en la que se muestra el tiempo variante en el data warehouse

está en la estructura clave. Cada estructura clave en el data warehouse contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc. El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

(5)

3. La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse, una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es, para todos los propósitos prácticos, una serie larga de "snapshots" (vistas instantáneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.

No Volátil

. El almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía. La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no es un factor en el data warehouse, ya que no se hace la actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalización y de normalización física.

Como se puede observar en la imagen en la base de datos operacional la actualización (actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea una sola actualización esto hace que cuando tengamos que tomar una decisión con esta información tengamos seguridad de esta.

(6)

3. Ventajas de un Data Warehouse

Datawarehouse proporciona una información de gestión accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos. Entre las ventajas tenemos:

- Proporciona información clave para la toma de decisiones empresariales. - Mejora la calidad de las decisiones tomadas.

- Especialmente útil para el medio y largo plazo.

- Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.

- Muy útiles para el almacenamiento de análisis y consultas de históricos. - Proporciona un gran poder de procesamiento de información.

- Permite una mayor flexibilidad y rapidez en el acceso a la información. - Facilita la toma de decisiones en los negocios.

- Las empresas obtienen un aumento de la productividad.

- Proporciona una comunicación fiable entre todos los departamentos de la empresa. - Mejora las relaciones con los proveedores y los clientes.

(7)

- Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.

- Transforma los datos en información y la información en conocimiento - Permite hacer planes de forma más efectiva.

- Reduce los tiempos de respuesta y los costes de operación.

4. Desventajas de un Data Warehouse

Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones, como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc. Entre las desventajas tenemos:

- No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.

- Requiere de continua limpieza, transformación e integración de datos. - Mantenimiento.

- En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización.

- Una vez implementado puede ser complicado añadir nuevas fuentes de datos. - Requieren una revisión del modelo de datos, objetos, transacciones y además del

almacenamiento.

- Tienen un diseño complejo y multidisciplinar.

- Requieren una reestructuración de los sistemas operacionales. - Tienen un alto coste.

- Requieren sistemas, aplicaciones y almacenamiento específico

5. Estructura de un Data Warehouse

En la estructura de un data warehouse encontraremos 4 niveles de esquematización los cuales forman la metadata, estos niveles se diferencian x el nivel de síntesis o depuracion de información requerida por la empresa que lo usa y son:

(8)

Detalle de datos antiguos (históricos)

. Es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.

Detalle de datos actuales

. En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:

 _{Estos datos reflejan las ocurrencias más recientes, las cuales son de gran interés}  _{Son voluminosos, ya que se almacenan al más bajo nivel de granularidad (no}

están procesados).

 _{Casi siempre se almacena en disco, al cual se tiene fácil acceso, aunque su}

administración sea costosa y compleja

Datos ligeramente resumidos

. Es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel el data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseñador para construirlo son:

 _{Que la unidad de tiempo se encuentre sobre la esquematización hecha.}  _{Qué contenidos (atributos) tendrá la data ligeramente resumida.}

Datos completamente resumidos

. El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles por lo general son indicadores que son usados con más frecuencia para el análisis gerencial.

(9)

Metadata

. El componente final del data warehouse es el de la metadata. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.

La metadata juega un rol especial y muy importante en el data warehouse y es usada como:

 _{Un directorio para ayudar al analista a ubicar los contenidos del data warehouse.}  _{Una guía para el mapping de datos de cómo se transforma, del ambiente}

operacional al de data warehouse.

 _{Una guía de los algoritmos usados para la esquematización entre el detalle de}

datos actual, con los datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc.

La metadata juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico.

A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura.

(10)

El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo.

El detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional. En otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región, para producir un almacenamiento de datos ligeramente resumidos. El detalle de ventas semanal es adicionalmente resumido en forma mensual, según una gama de líneas, para producir los datos completamente resumidos. La metadata contiene (al menos):

 _{La estructura de los datos}

 _{Los algoritmos usados para la esquematización}

 _{El mapping desde el ambiente operacional al data warehouse}

La información adicional que no se esquematiza es almacenada en el data warehouse. En muchas ocasiones, allí se hará el análisis y se producirá un tipo u otro de resumen. El único tipo de esquematización que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras, si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la esquematización no es almacenada en el data warehouse.

(11)

6. Flujo de datos de un Data Warehouse

El DW posee un flujo de datos estándar y generalizado, el cual puede apreciarse mejor en la siguiente figura.

Cuando la información ingresa al depósito de datos se almacena a nivel de Detalle de datos actuales. Los datos permanecerán allí hasta que ocurra alguno de los tres eventos siguientes:

 _{Sean borrados del depósito de datos.}

 _{Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de}

Datos altamente resumidos.

 _{Sean archivados a nivel de Detalle de datos históricos.}

7. Redundancia de un Data Warehouse

Debido a que el DW recibe información histórica de diferentes fuentes, sencillamente se podría suponer que existe una repetición de datos masiva entre el ambiente DW y el operacional. Por supuesto, este razonamiento es superficial y erróneo, de hecho, hay una mínima redundancia de datos entre ambos ambientes.

(12)

 _{Los datos del ambiente operacional se filtran antes de pertenecer al DW. Existen}

muchos datos que nunca ingresarán, ya que no conforman información necesaria o suficientemente relevante para la toma de decisiones.

 _{El horizonte de tiempo es muy diferente entre los dos ambientes.}

 _{El almacén de datos contiene un resumen de la información que no se encuentra}

en el ambiente operacional.

 _{Los datos experimentan una considerable transformación, antes de ser cargados}

al DW. La mayor parte de los datos se alteran significativamente al ser seleccionados, consolidados y movidos al depósito.

En vista de estos factores, se puede afirmar que, la redundancia encontrada al cotejar los datos de ambos ambientes es mínima, ya que generalmente resulta en un porcentaje menor del 1%.

8. Arquitectura de un Data Warehouse

En este punto y teniendo en cuenta que ya se han detallado claramente las características generales del Data Warehousing, se definirán y describirán todos los componentes que intervienen en su arquitectura o ambiente.

A través del siguiente gráfico se explicitará la estructura del Data Warehousing:

Tal y como se puede apreciar, el ambiente está formado por diversos elementos que interactúan entre sí y que cumplen una función específica dentro del sistema.

(13)

Básicamente, la forma de operar del esquema superior se resume de la siguiente manera:

 _{Los datos son extraídos desde aplicaciones, bases de datos, archivos, etc. Esta}

información generalmente reside en diferentes tipos de sistemas, orígenes y arquitecturas y tienen formatos muy variados.

 _{Los datos son integrados, transformados y limpiados, para luego ser cargados en}

el DW.

 _{Principalmente, la información del DW se estructura en cubos}

multidimensionales, ya que estos preparan esta información para responder a consultas dinámicas con una buena performance. Pero también pueden utilizarse otros tipos de estructuras de datos para representar la información del DW, como por ejemplo Business Models.

 _{L@s usuari@s acceden a los cubos multidimensionales, Business Models (u otro}

tipo de estructura de datos) del DW utilizando diversas herramientas de consulta, exploración, análisis, reportes, etc.

9. Data Mart

UnDatamartes una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer laestructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.

(14)

Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts:

Datamart OLAP.Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.

Datamart OLTP. Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:

 _{Poco volumen de datos}  _{Mayor rapidez de consulta}  _{Consultas SQL y/o MDX sencillas}  _{Validación directa de la información}  _{Facilidad para la historización de los datos}

De acuerdo a las operaciones que se deseen o requieran desarrollar, los datamarts pueden adoptar las siguientes arquitecturas:

 _Top-Down:_{primero se define el data warehouse y luego se desarrollan, construyen}

y cargan los DM a partir del mismo. En la siguiente figura se encuentra detallada esta arquitectura:

(15)

Como se puede apreciar, el DW es cargado a través de procesos ETL y luego este alimenta a los diferentes DM, cada uno de los cuales recibirá los datos que correspondan al tema o departamento que traten. Esta forma de implementación cuenta con la ventaja de no tener que incurrir en complicadas sincronizaciones de hechos, pero requiere una gran inversión y una gran cantidad de tiempo de construcción.

 _Bottom-Up_{: en esta arquitectura, se definen previamente los DM y luego se}

integran en un DW centralizado. La siguiente figura presenta esta implementación.

Los DM se cargan a través de procesos ETL, los cuales suministrarán la información adecuada a cada uno de ellos. En muchas ocasiones, los DM son implementados sin que exista el DW, ya que tienen sus mismas características pero con la particularidad de que están enfocados en un tema específico. Luego de que hayan sido creados y cargados todos los DM, se procederá a su integración con el depósito. La ventaja que trae aparejada este modelo es que cada DM se crea y pone en funcionamiento en un corto lapso de tiempo y se puede tener una pequeña solución a un costo no tan elevado. Luego que todos los DM estén puestos en marcha, se puede decidir si

(16)

construir el DW o no. El mayor inconveniente está dado en tener que sincronizar los hechos al momento de la consolidación en el depósito.

10. Bases de datos OLAP vs OLTP

OLAP - On-Line Analytical Processing. Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc. Este sistema es típico de los datamarts.

 _{El acceso a los datos suele ser de sólo lectura. La acción más común es la}

consulta, con muy pocas inserciones, actualizaciones o eliminaciones.

 _{Los datos se estructuran según las áreas de negocio, y los formatos de los datos}

están integrados de manera uniforme en toda la organización.

 _{El historial de datos es a largo plazo, normalmente de dos a cinco años.}

 _{Las bases de datos OLAP se suelen alimentar de información procedente de los}

sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL).

OLTP - On-Line Transactional Processing. Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.

 _{El acceso a los datos está optimizado para tareas frecuentes de lectura y}

escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).

 _{Los datos se estructuran según el nivel aplicación (programa de gestión a}

medida, ERP o CRM implantado, sistema de información departamental...).

 _{Los formatos de los datos no son necesariamente uniformes en los diferentes}

departamentos (es común la falta de compatibilidad y la existencia de islas de datos).

(17)

 _{El historial de datos suele limitarse a los datos actuales o recientes.}

OLAP

OLTP

Definición Procesamiento Analítico en Línea Procesamiento de Transacciones En_Línea

Objetivos

- Asistir en el análisis del negocio - Identificando tendencias,

comparando periodos,

- Gestiones, mercados, índices mediante el almacenamiento de datos.

- Asistir a aplicaciones específicas. - Mantener integridad de los datos

Alineación de datos

- Están alineados por dimensión - Los datos son organizados definiendo

dimensiones del negocio.

- Se focaliza en el cumplimiento de requerimientos del análisis del negocio.

- Están alineados por aplicación. - Se focaliza en el cumplimiento de

requerimientos de una aplicación especial o una tarea específica.

Integración de datos

- Los datos deben ser integrados. - Son conocidos como datos derivados

o DSS, dado que provienen de sistemas transaccionales y sistemas de archivos maestros.

- Los datos no están integrados. - Son calificados como datos

primitivos, operacionales. - Son estructurados

independientemente uno de otros.

- Son almacenados en diferentes formatos de archivos.

- Pueden residir en diferentes plataformas de hardware o RDBMS.

Historia

Almacenan tanta historia como sea necesario para el análisis del negocio, son guardados por 2 a 5 años, retienen valores para cada periodo en la Base de Datos.

Retienen datos para 60 o 90 días después son resguardados por administradores de B.D en almacenamientos secundarios.

Acceso y manipulación de

datos

- Tienen una carga y acceso masivo de datos, la carga y refresco es batch (bulk copy).

- La validación de datos se realiza antes o después de la carga, se realizan sentencias de Select sobre varios registros y tablas.

- Realizan manipulación de datos registro por registro con inserts, updates y deletes.

- Necesitan rutinas de validación y transacciones a nivel de registro.

Patrones de Uso

- Patrón de uso liviano con picos de uso eventuales en el tiempo. - Los picos de uso suceden diario o

semanal

- Patrón de uso constante

- Requiere grandes cantidades de recursos consumiendo solo el tiempo referido a la transacción.

Perfil de Usuario El perfil de usuario corresponde a lacomunidad gerencial para la toma de decisiones.

El perfil de usuario corresponde a los que interactúan con dichos sistemas, puesto que es la comunidad operativa.

(18)

11. Fundamentos de Data Mining

Eldatamining(minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

(19)

 _{Determinación de los objetivos.}_{Trata de la delimitación de los objetivos que}

el cliente desea bajo la orientación del especialista en data mining.

 _{Preprocesamiento de los datos.} _{Se refiere a la selección, la limpieza, el}

enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

 _{Determinación del modelo.}_{Se comienza realizando unos análisis estadísticos}

de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

 _{Análisis de los resultados.}_{Verifica si los resultados obtenidos son coherentes}

y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Carga de trabajo en las fases de un proyecto de datamining

En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".