• No se han encontrado resultados

4 INTELIGENCIA DE NEGOCIOS

5.3 Tecnologías de la IN

De acuerdo a Vitt et al. (2003), la tecnología es el factor clave que más contribuye a que las aplicaciones de la IN se hagan realidad. Las tendencias de la tecnología que posibilitan el desarrollo de aplicaciones de IN se basan en:

o Potencia de Procesamiento o Almacenamiento

o Tecnologías de redes

o Estándares en software y hardware

Cuando una compañía decide implementar una plataforma de IN, existen consideraciones que necesitan ser tomadas en cuenta relativas al tipo de plataforma en la que será construida, las herramientas y la tecnología que será usada para convertir los datos originales o crudos en información útil. Aunque estas decisiones casi siempre caen en el reino de los profesionales de tecnología, la gente de negocios necesita participar activamente en estas decisiones para estar seguros de que la plataforma de IN de la compañía satisfará adecuadamente sus necesidades de análisis (Vitt et al., 2003).

Tal como se mencionó anteriormente, es necesario considerar la tecnología que será usada para convertir los datos crudos en información útil. Entre estas tecnologías para extracción de datos crudos están los sistemas de data warehouse, reportes, análisis multidimensional, sistemas para el soporte a la decisión y minería de datos.

Sistemas de data warehouse

Conociendo las limitaciones de los sistemas operacionales, muchas compañías consiguen cubrir sus necesidades de análisis e informes de negocios acumulando los datos desde sus sistemas operacionales y almacenando los mismos en un repositorio colectivo. Este repositorio no sólo tiene un nombre especial que podría ser bastante familiar: el data warehouse, sino que también identifica el lugar donde los datos son almacenados en la plataforma de la Inteligencia de Negocios (Vitt et al., 2003).

Una de las principales razones para desarrollar un data warehouse es el integrar todos los datos operacionales provenientes de varias fuentes en una única y consistente arquitectura que de soporte al análisis y a la toma de decisiones en toda la organización (Murguía Castaños, 2001).

Muchos expertos definen el data warehouse como un almacén centralizado que nutre o alimenta una serie de almacenes que tienen una orientación específica o dominio específico o de tema específico, llamados datamarts. Un

datamart es un almacén de datos limitado a un área concreta de la organización, como se muestra en la figura 5.2. Otros aceptan una definición más amplia de

data warehouse como una colección de datamarts, como se muestra en la figura 5.3. El común denominador en ambas definiciones es el concepto de dominio o tema específico en un datamart. Por ejemplo, una compañía puede construir un

datamart para dar apoyo a las necesidades del departamento de ventas para analizar el rendimiento de la venta de producto y los márgenes de beneficio. La misma compañía puede tener otro datamart que permita al departamento de recursos humanos analizar tendencias en el personal y el número promedio de días trabajados por cada empleado (Vitt et al., 2003).

Figura 5.2 El data warehouse corporativo [Vitt et al., 2003]

Figura 5.3 La colección de datamarts [Vitt et al., 2003]

Como se puede observar en las figuras 5.2 y 5.3, existe un conjunto muy importante de procesos, conocidos con el nombre de ETL (Extraction, Transformation and Load), los cuales tienen el propósito de extraer, transformar y cargar los datos desde uno o más sistemas operacionales dentro del data warehouse. Estos procesos ETL participan en definir las reglas de negocio que indican cómo los datos son integrados. Las reglas de negocio son usualmente decididas en base al tipo de análisis que será ejecutado y cómo los datos soportan estos requerimientos de análisis (Vitt et al., 2003).

De acuerdo a Bill Inmont (citado en Murguía Castaños, 2001) un data warehouse es una colección de datos no volátil, integrada, diferente con respecto al tiempo y orientada a un tema.

• Orientada a un tema: significa que todos aquellos datos relevantes para un tema en específico son almacenados en un solo formato útil.

• Integrada: se refiere a que los datos son almacenados de una forma preestablecida utilizando convenciones para nombres, métricas, estructuras de codificación y atributos físicos aún y cuando los sistemas que propiamente almacenan la información lo hagan de manera diferente.

• No volátil: significa que el data warehouse es de sólo lectura, es decir, que los datos son almacenados y accesados en el data warehouse.

• Diferentes con respecto al tiempo: un data warehouse almacena datos de hasta diez años de antigüedad contrario a los treinta o sesenta días que almacena un sistema operacional.

De acuerdo a Perkins (citado en Murguía Castaños, 2001) el data warehouse

trae consigo múltiples beneficios, como toma de decisiones más efectiva desde el punto de vista del costo, una mejor inteligencia de negocio, mejora en el servicio al cliente, reingeniería del negocio y reingeniería de los sistemas de información. Generación de Reportes

Una vez cargada la información en el data warehouse, los procesos de análisis e informes de negocio son responsables de tomar los datos desde el data warehouse, ensamblar los datos, presentarlos en formatos amigables para el usuario y entregar esta información a los usuarios de negocio. Para poner en marcha este proceso existe una categoría de software, llamada herramientas de usuario final, que recoge la información de los data warehouse y presenta esta información a los usuarios en forma de informes y vistas interactivas (Vitt et al., 2003).

De todos los componentes en la arquitectura del data warehouse, el análisis y la generación de informes (también conocido como reporting) son probablemente los dos términos más familiares para los usuarios, debido a que el propósito primario de ellos es colocar información relevante en sus manos. Los procesos de análisis y reporting necesitan recopilar los datos en un formato que sea significativo para los diferentes tipos de usuarios de negocios (Vitt et al., 2003).

Las consultas ad-hoc permiten a los usuarios pedir, en tiempo real, información que no está disponible en los reportes periódicos. Las respuestas de estas peticiones, son necesarias para apoyar la toma de decisiones. Para ello, el sistema debe ser lo suficientemente inteligente para entender lo que el usuario pide. Los sistemas de consultas ad-hoc normalmente se basan en menús. Algunos sistemas más inteligentes son enfoques de SQL (structured query language). Los sistemas más inteligentes se basan en el entendimiento de lenguaje y algunos pueden comunicarse con el usuario utilizando reconocimiento de voz. Los sistemas de consultas normalmente se combinan con sistemas de reportes que generan reportes de rutina (Turban et al., 2004).

Análisis Multidimensional

El término procesamiento analítico en línea fue introducido en 1993 por E. F. Codd para describir una serie de herramientas que pueden analizar datos para reflejar las necesidades actuales del negocio. Estas herramientas se basaron en una serie de 12 reglas: (1) vista multidimensional, (2) transparencia al usuario, (3) fácil acceso, (4) consistencia en reportes, (5) arquitectura cliente/servidor, (6) dimensionalidad genérica, (7) manejo dinámico de matrices, (8) soporte

multiusuario, (9) operaciones de dimensiones cruzadas, (10) manipulación intituiva de datos, (11) reporteo flexible, y (12) niveles ilimitados de dimensiones y agregaciones (Turban et al., 2004).

Cuando el análisis multidimensional es respaldado por herramientas de interfase y estructuras de bases de datos que permiten accesos instantáneos y una manipulación sencilla por parte del usuario, un paradigma se hace presente: OLAP (online analytical processing) (Vitt et al., 2003).

Los sistemas OLAP organizan los datos directamente como estructuras multidimensionales, incluyendo herramientas fáciles de usar por usuarios para conseguir la información en múltiples y simultáneas vistas dimensionales. OLAP también es rápido para el usuario. OLAP es la respuesta para conseguir la experiencia de información a la velocidad del pensamiento. Finalmente los sistemas OLAP tienen un motor de cálculo bastante robusto para manejar las necesidades de cálculo especializado que una estructura multidimensional impone. El motor de cálculo de OLAP organiza los datos en una forma que permite a los analistas escribir sencillas y directas fórmulas que se ejecutan a través de múltiples dimensiones con sólo unas pocas líneas de código (Vitt et al., 2003).

En términos de la tecnología, una base de datos OLAP puede ser implementada sobre una base de datos relacional (llamada ROLAP, por OLAP relacional) o puede ser implementada sobre un almacén multidimensional especializado de datos (llamado MOLAP por OLAP multidimensional). En el ROLAP, la petición de datos es traducida en lenguaje SQL y la base de datos relacional es consultada para la respuesta. En MOLAP, el almacén de datos especializado es precargado con las respuestas a todas las posibles consultas para que cualquier petición de datos pueda ser respondida rápidamente. Otra tecnología llamada HOLAP combina los dos enfoques mencionados anteriormente (Turban et al., 2004).

Aparte de las capacidades de análisis, los datos multidimensionales en un sistema OLAP son típicamente visualizados como una estructura de almacenamiento en cubo con un montón de mini-cubos o celdas. Un cubo OLAP puede comúnmente tener docenas de dimensiones con cientos, miles e incluso hasta millones de miembros en una dimensión específica. La verdadera definición de un cubo OLAP es una estructura n-dimensional que almacena y mantiene valores. Algunas arquitecturas de bases de datos OLAP pueden incluir múltiples cubos con intersecciones entre ellos (Vitt et al., 2003).

La brecha entre los datos originales o crudos y la información real del negocio puede ser cubierta a través de una serie de procesos que se inician con los sistemas OLTP y finalizan con los sistemas de IN. Los sistemas OLAP posibilitan el análisis ad-hoc y al vuelo de la construcción de informes especializados que permiten a los usuarios rebanar sus datos en diferentes dimensiones, rotando filas y columnas y perforando en las jerarquías de datos. Estas capacidades de los

sistemas estándar OLAP permiten a los usuarios rápidamente preguntar y responder problemas e identificar patrones y anomalías que de otra forma estarían ocultos con un sistema de análisis sencillo (Vitt et al., 2003).

Sistemas para el Soporte a la Decisión

Los sistemas de soporte a la decisión (DSS) son sistemas de información basados en computadoras que combinan modelos y datos en un esfuerzo por resolver problemas semi-estructurados y algunos no estructurados con envolvimiento extenso del usuario. Los componentes DSS son software. Éstos son mantenidos en una computadora y pueden ser facilitados por software adicional (como multimedia). Herramientas como Excel incluyen algunos de los componentes y pueden ser usados para la construcción de sistemas DSS por los usuarios finales. La figura 5.4 muestra como funciona un sistema DSS. Un usuario de un sistema DSS recibe los datos de las bases de datos, data warehouses y otras fuentes de datos. Cuando el usuario tiene un problema, es evaluado de acuerdo a los procesos para la toma de decisiones. Entonces se construye un sistema DSS. Los datos son introducidos desde fuentes en el lado izquierdo (figura 5.4) y desde modelos en el lado derecho (figura 5.4). El conocimiento puede ser reproducido desde la base de conocimiento corporativo. Mientras más problemas son resueltos, se acumula más conocimiento en la base de conocimiento organizacional.

La toma de decisiones es frecuentemente un proceso compartido. Por ejemplo, las juntas entre grupos de administradores de diferentes áreas son un elemento esencial para lograr un consenso. El grupo puede estar involucrado en tomar una decisión o en una tarea que incluye una decisión, como crear una lista de alternativas aceptables o decidir el criterio para aceptar una alternativa. Cuando un grupo para la toma de decisiones es apoyado electrónicamente, el soporte se le conoce como soporte para la decisión del grupo. Hay dos tipos de grupos: el grupo de miembros presentes en una habitación y el grupo virtual, donde los miembros están en diferentes locaciones. Un GDSS (group decision support system) es un sistema computarizado interactivo que facilita la solución de problemas semi- estructurados y no estructurados hecha por grupos de tomadores de decisiones. El objetivo de un GDSS es soportar el proceso para llegar a una decisión. La primera generación de GDSS fue diseñado para soportar reuniones presenciales en lo que se llamó un cuarto de decisión (Turban et al, 2004).

Minería de Datos

Antiguamente limitado al dominio académico, en donde el conocimiento es considerado para tener valor, independientemente de su aplicación, la minería de datos está ganando aceptación en el mundo de los negocios (Vitt et al., 2003).

Este concepto deriva su nombre de las similitudes entre la búsqueda de información valiosa del negocio en grandes bases de datos y el minar una montaña para buscar valiosos minerales. Contando con bases de datos de suficiente tamaño y calidad, la tecnología de minería de datos puede generar nuevas oportunidades de negocios al proveer las siguientes capacidades: predicción automatizada de tendencias y comportamientos, y descubrimiento automatizado de patrones desconocidos. La minería de datos puede ser manejado por no programadores. El miner es frecuentemente una aplicación de usuario final, potenciado por data drills y otras herramientas poderosas de queries para hacer preguntas ad-hoc y obtener respuestas rápidas, con poca o sin habilidad de programación (Turban et al., 2004).

Las bases de datos para la IN son fuentes populares para aplicaciones de minería de datos. Éstas contienen una buena cantidad de datos internos que son generados y consolidados a través de los límites de la empresa, validados y limpios en el proceso ETL. Estas bases de datos también pueden contener valiosos datos externos como regulaciones, datos demográficos o información geográfica. Las bases de datos en general y los archivos operacionales son fuentes de datos populares para aplicaciones de minería de datos, especialmente porque contienen datos de nivel transaccional con una infinidad de patrones de datos escondidos, relaciones de datos y asociaciones de datos. En la figura 5.5 se muestran varias fuentes de datos para las aplicaciones de minería de datos.

Figura 5.5 Fuentes de datos para aplicaciones de minería de datos [Moss y Atre, 2005]

Las tareas de la minería de datos pueden ser generalmente clasificadas en descriptivas o de predicción dependiendo del tipo de problema de negocios que se quiere resolver. Algunas implementaciones de minería de datos incluso usan combinaciones de técnicas descriptivas y de predicción. La técnica descriptiva de una minería de datos busca describir nuevos patrones en los datos y requiere interacción humana para determinar el significado y la trascendencia de estos patrones. La otra alternativa es la minería de datos de predicción, el cual es empleado cuando los datos son utilizados para recabar información que automáticamente será aplicada a los nuevos datos. El término predicción no debe ser tomado literalmente, porque la minería de datos realmente no puede predecir un comportamiento individual. Esta técnica puede sólo apuntar a la probabilidad de un resultado. En las tareas de predicción de la minería de datos se utilizan algoritmos matemáticos para crear modelos que describen los datos de una mejor manera (Vitt et al., 2003).

El Web Mining es la aplicación de técnica data mining para descubrir patrones accionables y significativos, perfiles y tendencias de recursos de Web. El término

Web mining es utilizado para referirse tanto como a Web-content mining como a

Web-usage mining. Web-content mining es el proceso de minar los sitios de Web

en búsqueda de información. Web-usage mining envuelve análisis de acceso a

Web y otro tipo de información conectado a las búsquedas de los usuarios y patrones de acceso en una o más locaciones de Web. Web mining es utilizado en las siguientes áreas: filtración de información (e-mails, revistas y periódicos); vigilancia (de competidores, patentes, desarrollo tecnológico); minería de los

accesos a Web para el análisis del uso; búsquedas asistidas y servicios que luchan contra el crimen en Internet (Turban et al., 2004).

La minería de datos frecuentemente plantea más preguntas que respuestas. Estas preguntas pueden ser el punto de arranque de un valioso análisis. Por esta razón la minería de datos y OLAP están crecientemente implementadas en conjunto una detrás de la otra (Vitt et al., 2003).