1
INTRODUCCIÓN
Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de control y manejo de las operaciones comerciales. Fue así como en unos pocos años en grandes empresas y negocios existía un considerable número de información almacenada en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente grande.
Con esta gran acumulación de información, los directivos de tales empresas y negocios se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus operaciones comerciales durante los llamados ciclos de negocios propios del mercado.
A su vez, los mercados empresariales han experimentado una transformación radical. Las empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en todos los servicios existentes, por lo que se hace imprescindible encontrar formas más eficaces de distribuir los productos, más facilidades para hacer estudios de mercado basados en la información de las operaciones comerciales de las empresas y de sus clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones.
Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de las cuales disponían, en un único lugar, al que sólo se le incorporaría información relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data WareHouse (DW).
Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran fáciles de obtener, estandarizados y confiables se resumen en la facilidad de poder tomar decisiones vía Web y para esto se implementa Data WebHouse.
2
Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas empresas, al no considerar adecuadamente el impacto para el negocio de tener almacenada información deficiente.
3
CAPÍTULO I 1. DATA WAREHOUSE
1.1 CONCEPTO DE DATA WAREHOUSE
El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados.
Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos, etc.) y brindar una visión integrada de dicha información, especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización. Es un sitio donde se almacena de manera integrada toda la información resultante de la operatoria diaria de la organización. Además, se almacenan datos estratégicos y tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas a obtener información oculta (Data Mining).
Esta información incluye movimientos que modifican el estado del negocio, cualquier interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que ayude a comprender la evolución del negocio.
Esta tecnología ayuda a la organización a responder preguntas esenciales para la toma de decisiones que le permitan obtener ventajas competitivas y mejorar su posición en el mercado en el que operan. Algunas de las preguntas podrían ser:
¿Cuál es el perfil de mis clientes? ¿Cómo es su comportamiento? ¿Cuál es la rentabilidad que me deja? ¿Cuál es el riesgo que corro con él?
4
¿Qué servicios y productos utiliza y cómo puedo incrementarlos?
Además, se aplican técnicas de limpieza e integración de datos, esto asegura la existencia de estructuras homogéneas persistentes en el tiempo.
Para comprender mejor el funcionamiento de ésta tecnología explicaremos su arquitectura y los sistemas OLTP y OLAP.
1.2 ARQUITECTURA DEL DATA WAREHOUSE
La arquitectura de esta tecnología está integrada por los siguientes componentes:
1.2.1 OLTP (On-Line Transaction Processing)
Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las operaciones del día a día. Algunas de las características más comunes de este tipo de transacciones podrían ser:
Altas/Bajas/Modificaciones
Consultas rápidas, escuetas y predecibles
5
Poco volumen de información e información disgregada Transacciones rápidas
Gran nivel de concurrencia Modo de actualización on-line Baja redundancia de datos
Algunos ejemplos de este tipo de aplicaciones son: Compras
Ventas Inventario Sueldos
1.2.2 CONSOLIDACIÓN
Es la parte del proceso de Data Warehouse que se encarga de producir el cambio de los sistemas OLTP a las Bases de Datos OLAP. Consolidan datos de aplicaciones no integradas, datos disgregados y los transforman. Este proceso está compuesto por tres pasos:
Validación de Consistencia de los datos
- Comprueba la validez de los datos en el entorno operacional - Inconsistencia entre distintas aplicaciones dentro del sistema Mecanismos de Consolidación
- Refresco de datos: Volcado completo de los datos procedentes del sistema operacional. Factores técnicos - Mecanismo de transporte - Tiempos de carga - Reformateo de datos 1.2.3 MIDDLEWARE
6
Es un software que reside físicamente en un Cliente y en un Servidor de Comunicaciones, localizado entre el Cliente y el Servidor. Actúa como traductor entre distintas tecnologías. Permite que dos o más sistemas trabajen juntos aunque no estén preparados para ello.
Algunas de sus características más relevantes son:
Un mismo middleware puede poseer más de una máquina virtual para soportar diferentes entornos de desarrollo
Gestiona las comunicaciones con el Data Warehouse Controla la concurrencia y controla los procesos Batch.
Posee diversos controladores de Bases de Datos para acceder a las distintas fuentes, por ejemplo, Oracle, Sybase, AS400, etc.
1.2.4 OLAP (On-Line Analytical Process)
Son aplicaciones que se encargan de analizar datos del negocio para generar información táctica y estratégica que sirve de soporte para la toma de decisiones. Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de datos Multidimensionales.
Podemos nombrar las siguientes características como las más sobresalientes de estas aplicaciones:
Estructura de datos transparente al usuario
Solo Consulta, trabajan sobre la información operacional generada por los sistemas OLTP
Consultas sobre grandes volúmenes de datos no predecibles Información histórica
Modo de actualización Batch
Alta redundancia de datos para facilitar la generación de consultas y obtener buenos tiempos de respuesta
7
Poderoso Back-end analítico para múltiples aplicaciones de usuarios
Trabaja con resúmenes de miles de registros condensados en una sola respuesta.
1.3 DATA MARTS
1.3.1 DEFINICIÓN DE DATA MARTS
Un Data Mart es una versión especial de almacén de datos (Data Warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.
El Data Mart es un sistema orientado a la consulta, en el que se producen procesos Batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se conoce como Data Mining al proceso no trivial de análisis de grandes cantidades de datos con el objetivo de extraer información útil, por ejemplo para realizar clasificaciones o predicciones.
VENTAJAS
Son más simples de implementar que un Data Warehouse
Pequeños conjuntos de datos y, en consecuencia, menor necesidad de recursos.
8
DESVENTAJA
Añaden tiempo al proceso de actualización.
En síntesis, son pequeños Data Warehouse centrados en un tema o un área de negocio específico. En muchos casos, los Data Warehouse comienzan siendo Data Marts con el objetivo de minimizar los riesgos para luego ir ampliando su espectro gradualmente según las necesidades de la empresa, para que las mismas sean satisfactorias para el bienestar de la institución y reconocimiento de la persona que empleará y tomará las decisiones.
1.4 DATA MART OLAP
Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.
1.5 DATA MART OLTP
Se basa en un simple extracto del Data Warehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas reporte, que vienen a ser factibles reducidas y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de query (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).
Los Data Marts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:
9
Poco volumen de datos Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas Validación directa de la información Facilidad para la historización de los datos.
1.6 ELEMENTOS QUE INTEGRAN UN ALMACÉN DE DATOS
1.6.1 METADATOS
Uno de los componentes más importantes de la arquitectura de un almacén de datos son los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan.
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el metadato es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de los Data Warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:
Tablas
Columnas de tablas Relaciones entre tablas
10
Entidades y Relaciones
1.7 DIFERENCIAS ENTRE OLTP Y OLAP
Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a través de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregación y desde distintas perspectivas (dimensiones), como ser:
Totales de venta: Por región, Por producto,
Por período de tiempo, etc.
1.7.1 DATOS MULTIDIMENSIONALES
11
En el análisis multidimensional, los datos se representan mediante dimensiones como producto, territorio y cliente. En general, las dimensiones se relacionan en jerarquías, por ejemplo, ciudad, estado, región, país y continente. El tiempo es también una dimensión estándar con sus propias jerarquías tales como: día, semana, mes, trimestre y año.
1.8 IMPLEMENTACIÓN DE UN DATA WAREHOUSE
La estructura adoptada para el almacén de datos se debe realizar de tal modo que satisfaga las necesidades de la empresa, dicha elección es clave en la efectividad del Data Warehouse. Existen tres formas básicas de estructura del almacén:
Data Warehouse central.- La implementación consta de un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa.
Data Warehouse distribuido.- Es una estructura de un solo nivel que se particiona para distribuirlo a nivel departamental.
Data Warehouse de dos niveles.- Es una combinación de los anteriores que soporta requerimientos de información tanto a nivel empresarial como departamental.
1.9 COSTOS DEL DATA WAREHOUSE
12
Uno de los puntos más importantes a tener en cuenta en el momento de decidir implementar un Data Warehouse es el costo que trae aparejado. A grandes rasgos los costos asociados a un proyecto Data Warehouse son el Costo de Construcción y el costo de Mantenimiento y Operación una vez construido.
1.9.1 COSTO DE CONSTRUCCIÓN
Es similar a al Costo de Construcción de cualquier sistema de Tecnología. Se pueden clasificar en tres tipos:
RECURSOS HUMANOS: Es necesario contar con conocimiento sobre el perfil y cualidades del personal ya que el desarrollo de esta tecnología requiere de la participación tanto del personal técnico como de los especialistas de negocios, estos dos grupos trabajarán juntos durante todo el desarrollo del Data Warehouse.
TIEMPO: Además de los tiempos de construcción y entrega del Data Warehouse, se debe tener en cuenta los tiempos de planificación del proyecto y de definición de la Arquitectura.
TECNOLOGÍA: El costo de la nueva tecnología introducida por el Data Warehouse se debe considerar solo como el costo inicial de la implementación.
1.9.2 COSTO DE OPERACIÓN Y MANTENIMIENTO
Es necesario, una vez que se ha finalizado la construcción y se ha entregado el producto se debe dar soporte que es una fuente continua de costos.
Los costos de operación se dividen en: Costo de Evolución
Costo de Crecimiento
Costo producido por cambios
13
El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos:
1.10.1 IMPACTO EN LA GENTE
La construcción requiere de la participación activa de quienes utilizarán el Data Warehouse, depende tanto de la realidad de la empresa como de las condiciones que existan en ese momento, las cuales determinarán cual será su contenido.
El Data Warehouse provee los datos que posibilitará a los usuarios a acceder a su propia información en el momento que la necesitan. Esta posibilidad para entregar información presenta varias implicancias:
Los usuarios deberán adquirir nuevas destrezas.
Se eliminará los largos tiempos de análisis y programación para obtener información. Como la información estará lista para ser utilizada, probablemente, aumenten las expectativas. Pueden existir nuevas oportunidades en la comunidad empresarial para los especialistas de información.
Se reducirá hasta casi eliminarse la gran cantidad de reportes en papel.
La madurez del Data Warehouse dependerá del uso activo y retroalimentación de sus usuarios.
1.10.2 IMPACTOS EN LOS PROCESOS EMPRESARIALES Y DE TOMA DE DECISIONES
Mejora del proceso de toma de decisiones por medio de la disponibilidad de la información. Las decisiones se toman más rápidamente por gente más informada. Los procesos empresariales pueden ser optimizados, se elimina el tiempo de espera de información que, generalmente, es incorrecta o no se encuentra.
Se reducen los costos de los procesos y muchas veces se aclaran sus conexiones y dependencias, aumentando así la eficiencia en dichos procesos.
14
El Data Warehouse permite que los datos de los sistemas operaciones sean utilizados y examinados, cuando estos datos se organizan para tener significado para la empresa la gente comienza a aprender de los sistemas y pueden quedar expuestos posibles defectos de las aplicaciones actuales.
Aumenta la confianza de las decisiones tomadas en base a la información del Data Warehouse, debido a que tanto los responsables de la toma de decisiones como los afectados conocen que están basadas en información de buena calidad.
La información compartida conduce a un lenguaje común, conocimiento común y mejora de la comunicación en la empresa.
Teniendo en cuenta las etapas de construcción, soporte del Data Warehouse y soporte de los sistemas operacionales, algunos de los impactos técnicos son los siguientes:
En el momento de construcción de un Data Warehouse el impacto más grande sobre la gente técnica está dado por la curva de aprendizaje, algunas de las nuevas destrezas a adquirir son:
o Conceptos y estructura del Data Warehouse.
o Nuevas de demandas de soporte técnico debido a la utilización de nuevas tecnologías, nuevas demandas de recursos.
o Es necesario adquirir destrezas de desarrollo incremental evolutivo. o Trabajo en equipo con gente del área de negocios como participantes
activos del desarrollo del proyecto.
1.11 EL DATA MINING Y SU RELACIÓN CON EL DATA WAREHOUSE Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos orientados al almacenamiento, extracción y análisis de datos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real.
15
Data Mining está soportada por las siguientes tecnologías: Soportes de almacenamiento masivo de datos Potentes computadoras con multiprocesadores Data Warehouse.
Algoritmos de Data Mining.
Data Mining es la extracción de información oculta y predecible de grandes bases de datos.
Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.
Las herramientas de Data Mining sirven para predecir tendencias y comportamientos, de esta manera permiten a las organizaciones tomar decisiones proactivas para adaptarse rápidamente a los cambios del mercado obteniendo así ventajas competitivas.
Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas por consultas en un sistema tradicional de soporte operacional. La potencialidad de estas herramientas reside en la capacidad de explorar las bases de datos en busca de patrones ocultos, encontrando información predecible que para un experto sería casi imposible debido al gran volumen de información.
Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc.
El origen de la información que utilizan los algoritmos de Data Mining, por lo general, son datos históricos que se encuentran almacenados en un Data Warehouse. El partir
16
de un Data Warehouse simplifica la etapa previa a la etapa de preparación de los datos ya que se construye en base a la integración de fuentes de datos múltiples y heterogéneas Bases de Datos relacionales, ficheros planos y registros de transacciones en línea.
El Data Warehouse dota a las organizaciones de memoria, y el Data Mining de inteligencia.
La mejor forma de aplicar las técnicas de Data Mining es que éstas se encuentren totalmente integradas con el Data Warehouse así como también con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del Data Warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además la integración con el Data Warehouse permite que ni bien los cambios originados en las bases de datos operacionales son replicados al Data Warehouse pueden ser analizados directamente y monitoreados mediante las técnicas de Data Mining. El Server de Data Mining debe estar integrado con el Data Warehouse y el Server OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado metadato centrado en procesos
17
define los objetivos del Data Mining para resultados específicos tales como manejos de campañas promociónales, optimización de promociones, etc.
A medida que el Data Warehouse crece con nuevas decisiones y resultados, la organización puede aplicar Data Mining para obtener las mejores prácticas y aplicarlas en futuras decisiones.
Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes, el Server de Data Mining aplica los modelos de negocios del usuario directamente al Data Warehouse y devuelve un análisis proactivo de la información más relevante.
Estos resultados mejoran los metadatos en el Server OLAP proveyendo un estrato de metadatos que representa una vista fraccionada de los datos.
Generadores de reportes,
visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.
18
CAPÍTULO II 2. DATA WEBHOUSE
2.1 CONCEPTO DE DATA WEBHOUSE
Un Data WebHouse realiza las mismas funciones que un Data Warehouse con la diferencia en que la fuente de datos para un sistema de Soporte a la decisión proviene del canal Web.
Permite obtener una visión única y global de los visitantes y/o clientes, que integran varias fuentes de datos efectuando Clickstream Analysis sobre datos acumulados. Realiza elaboración de análisis multidimensionales teniendo conocimiento de lo que pasa en la página Web.
Su enriquecimiento de los perfiles de visitantes y/o clientes es factible con informaciones sobre preferencias e indicadores de comportamientos de clientes que se encuentran en línea.
2.2 IMPACTO EN LA WEB CON EL ALMACÉN DE DATOS
Con el surgimiento de la Web, una parte significativa del mundo ha visto alterado el modo de comunicarse, la forma en que se dirigen y gestionan los negocios y las diferentes ramas de la economía, los servicios, la ciencia y el desarrollo tecnológico. La Web se ha convertido en mucho más que una tecnología para conectar dispositivos de procesamiento distribuido pasando a representar una infraestructura para el desarrollo y la gestión de productos y/o servicios de cualquier persona o entidad en cualquier lugar del planeta.
La interacción de los usuarios con los diferentes sitios que se encuentran en la Web a través de la selección de los mismos constituye una inmensa fuente de datos sobre el comportamiento de los clientes. Estos datos llamados Clickstream o que bien pudiésemos denominar secuencia de selecciones en español (esto proviene de la acción del usuario de seleccionar a través del clic de los botones del ratón o Mouse)
19
en la mayoría de los casos se encuentran en un estado bruto y no tendrán tal vez una apariencia adecuada pero los mismos tienen un potencial de detalles nunca imaginables sobre cada proceso de interacción del ser humano con la Web.
La secuencia de selecciones conforma una serie cronológica de acciones casi microscópicas que pueden ser agrupadas en sesiones representándose de este modo una trayectoria de acciones que pudiesen haber conducido al hombre que interactúa con la Web a una compra, una descarga de productos y/o servicios u otro comportamiento en que estemos interesados para analizar y/o comprender.
Infelizmente muchas organizaciones no han conseguido aprovechar con eficacia esta ventaja que brinda una cantidad invalorable de información simplemente porque no poseen los recursos necesarios para aprovechar esto eficazmente. La actual evolución de las Nuevas Tecnologías de la Información (NTIC) está haciendo posible que se puedan generar recursos que atiendan las necesidades de estas organizaciones. Entender la secuencia de los clicks a los que hacíamos referencia con anterioridad y almacenarlos en bases de datos para que le sean realizados análisis efectivos proporcionará un ambiente eficaz para la manipulación de este tipo de información en un Data WebHouse o Almacén de Datos por medio de Web que es la forma en que se denomina el término en idioma español.
Mediante el uso de distintos recursos de extracción y manipulación de los datos, la tecnología de Data WebHouse permite que una gran cantidad de usuarios pueda realizar inferencias en uno o más bancos de datos modelados de forma especial. Esto agiliza el acceso a las informaciones y también permite la formulación de consultas definidas en cualquier momento, con un simple movimiento de arrastrar y soltar objetos en interfaces gráficas. Entiéndase el uso específicamente de las más populares actualmente de las interfaces, la interfaz Web.
Existe un consenso, casi unánime en la actualidad en afirmar que Internet ya es el acontecimiento más revolucionario del mundo de la informática y se vaticina que los cambios más significativos en el ámbito de los sistemas de información corporativos
20
vendrán con la aplicación de la tecnología Internet, concretamente el desarrollo de redes privadas vía Internet.
El almacén de datos se está convirtiendo en la infraestructura que apoya gestión de relaciones con clientes (CRM), implementando en el almacén de datos la realización para que el cliente posea pulsaciones disponibles para el análisis. Estas fuerzas están cambiando nuestra forma de diseñar e implementar el almacén de datos. Como una señal de estos cambios en la Web se ha pasado a denominar a la toma de decisiones en Web con “Data WebHouse”.
El Data WebHouse no tiene centro, porque es inevitablemente distribuida. Los datos WebHouse no sólo son distribuidos en cada una de las organizaciones, sino que también se distribuye entre múltiples organizaciones.
En la Web se encuentran socios de negocios organizadas en cadenas de suministro para el intercambio de información.
2.3 ARQUITECTURA BÁSICA
Un Data WebHouse abarcan múltiples organizaciones y las empresas tiene que tener algún tipo de uniformidad previsible habiendo un conjunto de normas que permiten a las diferentes partes de los Data WebHouse reconocerse y comunicarse mutuamente. Su principal característica es el modelado dimensional, las mismas que están conformadas con lo que se llama “almacén de datos con arquitectura de bus”.
El almacén de datos con arquitectura de bus es la base de un reparto íntegro de almacén de datos del sistema, tales como la Data WebHouse.
2.4 COMPONENTES CENTRALIZADOS DEL DATA WEBHOUSE
El componente centralizado de los Data WebHouse se basa en las definiciones de las dimensiones y la conformación de los hechos. Estas definiciones son lógicas, no físicas. En la mayoría de los Data WebHouse, son conformados por las dimensiones, como calendario (la dimensión temporal) cliente y producto.
21
Por lo tanto, la responsabilidad de cada una de las dimensiones conformado debe confiarse a un grupo de “dimensión autoridad”, que define, mantiene y publica una dimensión particular de todos los Data Marts clientes que se conectan con la utilización de los datos WebHouse.
2.5 CUBOS DE INFORMACIÓN Y DIMENSIONES
CUBOS.- Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data Warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data Warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional. A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos
22
a un data Warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.
DIMENSIONES.- Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos.
2.6 DATA WEBHOUSING
2.6.1 CONCEPTO DE DATA WEBHOUSING
Data WebHousing es el centro de la arquitectura para los sistemas de información, soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico, informático sobre una amplia perspectiva en tiempo real.
Se puede caracterizar un Data WebHouse haciendo un contraste de cómo los datos de un negocio almacenados en un Data WebHouse, difieren de los datos
23
2.6.2 TIPOS DE SISTEMAS DE INFORMACIÓN
El ingreso de datos en el Data WebHouse viene desde el ambiente operacional en casi todos los casos. El Data WebHouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.
Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos.- Orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin
Base de Datos Operacional Data WebHouse
Datos Operacionales Datos del negocio para Información Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
Tabla Nº 2. Comparación en Base de Datos operacionales y Data WebHouse
24
carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los casos anteriores, cuya utilización es periódica.
Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial-AI).
Sistemas Tácticos.- Diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios). Sistemas Técnico - Operativos.- Que cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de sensores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y Data WebHousing.
Sistemas Interinstitucionales.- Este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo esto a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la
25
organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnología Data WareHousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de decisiones. Este último es la base de un Data WebHouse.
2.6.3 SISTEMAS TÉCNICO-OPERACIONALES
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con sus operaciones cotidianas. Estos son los sistemas que operan sobre el "backbone" (columna vertebral) de cualquier empresa o institución, entre las que se tiene sistemas de ingreso de órdenes, inventario, fabricación, planilla y contabilidad, entre otros. Debido a su volumen e importancia en la organización, los sistemas operacionales siempre han sido las primeras partes de la empresa a ser computarizados. A través de los años, estos sistemas operacionales se han extendido, revisados, mejorados y mantenidos al punto que hoy, ellos son completamente integrados en la organización. Desde luego, la mayoría de las organizaciones grandes de todo el mundo, actualmente no podrían operar sin sus sistemas operacionales y los datos que estos sistemas mantienen.
2.6.4 SISTEMAS DE SOPORTE DE DECISIONES
Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con el planeamiento, previsión y administración de la organización. Estas funciones son también críticas para la supervivencia de la organización, especialmente en nuestro mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y "análisis financiero", requieren, además, de sistemas de información que los soporte. Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la información requerida son también diferentes. Las funciones basadas en el conocimiento son los sistemas de soporte de decisiones.
26
Estos sistemas están relacionados con el análisis de los datos y la toma de decisiones, frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola área, los datos para el soporte de decisiones, con frecuencia, toma un número de áreas diferentes y necesita cantidades grandes de datos operacionales relacionadas, son estos sistemas sobre los se basa la tecnología Data WebHouse.
2.6.5 CARACTERÍSTICAS DE UN DATA WEBHOUSE Entre las principales se tiene:
Orientado a Temas.- Una primera característica del Data WebHouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones.
El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación.
27
En el ambiente Data WebHouse se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc.
Las
aplicaciones están relacionadas con el diseño de la base de datos y del proceso. En Data WebHousing se enfoca el modelamiento de datos y el diseño de la base de datos con fuente en la Web.
28
Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a temas, radican en el contenido de la data a nivel detallado. En el Data WebHousing se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones.
Integración.- El aspecto más importante del ambiente Data WebHousing es que la información encontrada al interior está siempre integrada.
La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
De Tiempo Real.- Toda la información del Data WebHouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted acceda a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso.
Volátil.- Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere un browser para dicho propósito.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional y del Data WebHouse. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no es un factor en el Data WebHouse, ya que se trabaja en tiempo real. Esto significa que en el nivel
29
físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalización y de normalización física. La fuente de casi toda la información del Data WebHouse es el ambiente Data Warehouse a simple vista, se puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera impresión de muchas personas se centra en la gran redundancia de datos, entre el ambiente Warehouse y el ambiente de WebHouse, para entender esto se debe considerar lo siguiente:
o Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de Data WebHouse.
o El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el ambiente operacional es más reciente con respecto a la del Data WebHouse.
o Desde la perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes Data Warehouse y Data WebHouse. Los datos experimentan una transformación no tan fundamental cuando pasa al Data WebHouse. La menor parte de los datos se alteran significativamente al ser seleccionados y movidos Data WebHouse.
30
CAPÍTULO III
3. ANÁLISIS DE UN PROTOTIPO DE UN DATA WEBHOUSE
3.1 ESTUDIO DEL SISTEMA ACTUAL
Un Data WebHouse debe ser diseñado desde el principio como un sistema totalmente distribuido, con muchos nodos desarrollado de manera independiente que contribuye a la general de su conjunto. En otras palabras, no existe un centro de Data WebHouse. No tiene que ser un sistema cliente / servidor, sino uno preparado para la Web. Es decir, rediseñado con posibilidad de sistema de entrega de sus resultados y exponiendo sus interfaces remotas a través de navegadores de la Web.
Deberá poseer un trato textual, numérica, gráfica, fotografía, audio, vídeo y flujos de datos porque la Web ya apoya esta combinación de medios de comunicación, apoyo a nivel atómico comportamiento datos, al menos, el nivel terabyte de datos en muchos Marts, especialmente los que contengan datos de pulsaciones. Muchos análisis de comportamiento deben, por definición, a través de rastrear el nivel más bajo de los datos debido a que el análisis se oponen a resumir las limitaciones de antelación. Permitir responder a un usuario final en un tiempo aproximado de 10 segundos, independientemente de la complejidad de la solicitud.
Además incluye la interfaz de usuario de la eficacia como criterio principal de diseño. La única cosa que importa en los datos WebHouse es la publicación de información en la Web.
Con este almacén de datos en evolución, conseguiremos hacer tres grandes factores de diseño técnico más difícil.
3.2 RECOLECCIÓN DE DATOS
Para conseguir los resultados de la búsqueda de información perseguidos es imprescindible contar con un buen proyecto, que capte los intereses y las inquietudes del Cliente y las transforme, de forma ordenada, en la imagen gráfica que la empresa
31
quiere ofrecer en Internet, respetando la funcionalidad exigida y garantizando los tiempos de ejecución y el control del presupuesto.
3.3 ESTRUCTURA DE CONTENIDOS En este nivel estudiaremos elementos como:
Imagen gráfica
Diagramas de navegación Facilidad de aprendizaje y uso
Itinerarios con sus objetivos de comunicación Ergonomía de pantallas de los aplicativos, etc.
En base al plan establecido en este apartado, el Cliente tendrá una idea clara de la totalidad de las aportaciones que deberá realizar en paralelo con nuestro trabajo: fotografías, textos, organigramas, etc.
3.4 DETERMINACIÓN DE OBJETIVOS
Para plantearnos los objetivos que con lleven al fin del proyecto tenemos que tener en cuenta la necesidad del cliente o empresa, teniendo en cuenta principalmente el problema por el cual necesita ayuda para la toma de decisiones en diferentes áreas de la empresa. Además sería conveniente intercambiar opiniones sobre la realización de cubos y dimensiones que se necesitaran para la realización del proyecto en Data WebHouse.
3.5 ANÁLISIS DEL PROBLEMA PARA LA TOMA DE DECISIONES
La complejidad en el desarrollo se ha presentado como la principal desventaja de un DW. Esto se debe a que la realidad para cada negocio es distinta, y un DW debe responder a las características particulares que presenta cada uno de ellos, tanto de configuración como del conjunto de requisitos a satisfacer; por lo cual no es fácil estandarizar la forma de desarrollar este tipo de proyectos.
32
El empleo de una forma de trabajo ordenada es un factor de importancia en el desarrollo e implantación de proyectos de Data WebHousing, y la tendencia en general busca lograr a través del uso de una metodología, recortar los tiempos de desarrollo y programar la inversión de recursos de manera eficiente; además proporciona un lenguaje común logrando que exista comunicación, permitiendo la incorporación de nuevos miembros al equipo de trabajo siendo productivos inmediatamente.
En la actualidad no podemos asegurar cuál estrategia de implementación es mejor o peor, sin embargo al analizar las tendencias generales del mercado se encuentra que la estrategia de desarrollo de Data Marts está siendo adoptada con mayor frecuencia en los últimos tiempos. A esta tendencia general se le ha identificado como la aproximación que garantiza la probabilidad de éxito más grande en la implantación de Data WebHousing, tanto por la rapidez en la obtención de resultados en períodos cortos con inversiones moderadas como por la modularidad posible de alcanzar con este enfoque considerando cada Data Marts como un incremento del sistema final (Data WebHouse).
CAPÍTULO IV
4. DISEÑO DE UN PROTOTIPO DE UN DATA WEBHOUSE
4.1 VISIÓN GENERAL DEL PROYECTO DEL DISEÑO DE DATA
WEBHOUSE
Es fundamental disponer del diseño más avanzado desarrollado por experto profesionales que nos garanticen la óptima comunicación de nuestros objetivos a través de la Web.
33
4.2 COMPONENTES DEL DISEÑO
4.2.1 Tabla de hecho.- Es la representación en el Data Warehouse de los procesos de negocio de la organización. Por ejemplo, una venta puede identificarse como un proceso de negocio de manera que es factible, si corresponde en nuestra organización, considerar la tabla de hecho ventas.
4.2.2 Dimensión: Es la representación en el Data Warehouse de una vista para un cierto proceso de negocio. Si regresamos al ejemplo de una venta, para la misma tenemos el cliente que ha comprado, la fecha en la que se ha realizad. Estos conceptos pueden ser considerados como vistas para este proceso de negocio. Puede ser interesante recuperar todas las compras realizadas por un cliente. Ello nos hace entender por qué la identificamos como una dimensión.
4.2.3 Métrica: son los indicadores de negocio de un proceso de negocio. Aquellos conceptos cuantificables que permiten medir nuestro proceso de negocio. Por ejemplo, en una venta tenemos el importe de la misma.
4.3 APLICACIONES DE DATA WEBHOUSE
Para poder aplicar a un proyecto Data WebHouse se necesita tener claro las aplicaciones con las que se trabajara.
Puntualidad.- Los resultados deben estar disponibles en tiempo real. "A partir del día anterior" se debe analizar la presentación de informes. Tener en un tiempo justo los inventarios, junto con la personalización en masa, nos obligan a comprender y responder a la demanda.
34
Los volúmenes de datos.- El gran paso a la personalización en masa significa que ahora se debe capturar, analizar y responder a todas las transacciones en el negocio incluyendo cada gesto hace un cliente, tanto antes como después del operativo o transacciones de venta y no parece haber limite del volumen. Por ejemplo, la combinación de Microsoft relacionados con sitios Web, analizados diario como una sola entidad, en algunos días de gran influencia han capturado más de mil millones de eventos de la página.
Los tiempos de respuesta. La Web hace que rápidamente los tiempos de respuesta críticos. Si algo útil no ocurre dentro de los 10 segundos el usuario puede navegar a otra página. Aquellos de nosotros que corren grandes almacenes de datos saber que muchas preguntas tendrá más de 10 segundos.
4.4 ARQUITECTURA
Como estos factores de diseño se han convertido en más difícil, nos encontramos un mayor apoyo continuo de los usuarios y las solicitudes. Para abordar estos problemas, tenemos que ajustar nuestra arquitectura de almacenamiento de datos. No podemos hacer que nuestro único servidor de base de datos cada vez más poderosos. No podemos hacer que entregar todos estos objetos complicado y espero estar a la altura de la escalada de estos requisitos.
4.5 IMAGEN CORPORATIVA
La imagen es mucho más que el aspecto, es un conjunto de características que hacen que su empresa comunique eficazmente las ideas que desea expresar a sus clientes: modernidad, excelencia, seguridad, liderazgo, confianza... En todo tipo de relación con el cliente, nada importa más que la primera impresión.
35
4.6 INTERACCIÓN DEL USUARIO
El nuevo medio que es Internet permite no sólo expresar ideas a los usuarios, sino provocar sus reacciones, conocer sus intereses y conseguir que su relación sea activa. Cultivar esto fortalece la fidelización con la marca o empresa y a su vez permite que la relación usuario – servidor sea más definida.
4.7 USABILIDAD Y NAVEGABILIDAD
Aunque una Web sea muy atractiva, se deberá utilizar las tecnologías más modernas que ofrezca los contenidos de mayor calidad, si no se tiene en cuenta cómo y quién la usará?, todo esfuerzo será una pérdida de tiempo y dinero.
4.8 PLANIFICACIÓN Y MÉTODO
Es importantísimo contar con suficiente información por parte del cliente antes de comenzar un proyecto. Hay que conocer objetivos, estrategias, perfiles de usuarios, calendarios, etc. Nuestro método reduce los costos del proyecto a través de una planificación estricta y etapas de desarrollo claras.
36
CAPITULO V
5. TECNOLOGÍA Y FASES DE EJECUCIÓN
5.1 TECNOLOGÍA
5.1.1 CREATIVIDAD Y DISEÑO
Para el diseño se debe tener en cuenta las actuales tendencias de diseño en la red y la consecución de los objetivos de comunicación que se pretenden, dando forma a una serie de Plantillas de Diseño que conformarán la nueva imagen de su empresa en todo el mundo.
5.1.2 TRATAMIENTO DE IMÁGENES
Es fundamental focalizar la atención de los usuarios en los objetivos propuestos mediante el primer impacto visual, por eso realizamos un tratamiento de imágenes depurado que no sólo persigue una óptima calidad gráfica, sino su máxima ligereza, evitando retardos innecesarios en la carga de las páginas y agilizando así la navegación de los usuarios.
5.1.3 ANIMACIONES GRÁFICAS
Las últimas tendencias en la red y la mejora en las comunicaciones con la aparición de la banda ancha han hecho habitual el uso de animaciones gráficas en la Web, pero como en el cine o la televisión, estamos ante un nuevo lenguaje de comunicación, que requiere tanto del empleo de las últimas tecnologías, como de los mejores profesionales.
37
5.1.4 AUDIO Y VÍDEO STREAMING
Gracias a las nuevas tecnologías de Streaming y a la banda ancha es posible la emisión de Audio y Vídeo con garantías de calidad y economía, que ponen al alcance de muchas empresas nuevas posibilidades en el campo de la formación y el entretenimiento.
5.1.5 PROGRAMACIÓN DE SCRIPTS
Para convertir la Web en una herramienta de comunicación total para su empresa, se necesita del desarrollo de pequeños programas que sean capaces de interactuar contra sus bases de datos de gestión interna, ofreciendo así ilimitados servicios a sus usuarios, mejorando los procesos de Atención al Cliente, Contratación a Distancia, Gestión Remota, el Tele-trabajo o el acceso a la Información “Online”.
5.2 FASES DE EJECUCIÓN
Trabajar en equipo con el Cliente y coordinar las diferentes fases de desarrollo del proyecto son aspectos fundamentales para garantizar el éxito del mismo. Por eso contamos con un equipo multidisciplinar capaz de llevar a la práctica los proyectos aprobados por nuestros clientes, ajustándose a los requerimientos exigidos, respetando el presupuesto y los tiempos de ejecución, y realizando un exhaustivo control de calidad a satisfacción del Cliente.
5.2.1 DEFINICIÓN DEL PROYECTO
En la etapa de Proyecto, trabajando de un modo interactivo e iterativo con el Cliente, en un tiempo razonablemente breve podremos intercambiar la necesaria información y madurar la misma lo suficiente, como para que las definiciones a las que lleguemos, supongan la más adecuada síntesis entre su conocimiento en el área de negocio
38
propuesta y nuestro conocimiento del Medio (Internet) y de las aplicaciones de negocio en el mismo.
5.2.2 PROPUESTA Y ANÁLISIS
Analizar las distintas alternativas a nivel preliminar en sus tres dimensiones (alcance, costo y plazo) es el mejor modo para lograr adecuar las expectativas del Proyecto con los resultados finales. El hecho de adelantar la tarea de realizar definiciones (que debería hacerse de cualquier modo), nos permite a todos una mayor visión de conjunto de trabajo a realizar y al Cliente en particular una forma fiable y temprana de conocer los costos y los plazos del proyecto, elementos necesarios para la toma de decisiones.
5.2.3 DISEÑO Y CREATIVIDAD
Para el diseño se debe realizar realizará un estudio exhaustivo de los objetivos de la empresa sobre la cual se va a implementar el proyecto, teniendo en cuenta las necesidades expresadas por el Cliente con el objetivo de optimizarlo al máximo e imprimir dinamismo respetando un entorno de navegación fácil. En este sentido, introduciendo elementos dinámicos, trabajando las imágenes y adaptándolas al entorno Web conseguiremos una más fácil y rápida navegación.
5.2.4 PRODUCCIÓN DE CONTENIDOS
Por la experiencia que hemos acumulado en el terreno de la creación de contenidos para Portales corporativos, consideramos que es fundamental que el usuario identifique claramente la información relativa a la empresa y la información relativa a los productos y servicios. En este sentido, nos parece oportuno proponer una estructuración de contenidos dinámica y acorde con la consecución de los objetivos propuestos.
39
5.2.5 CONTROL DE CALIDAD
Conjuntamente con el Cliente revisaremos todo el trabajo realizado, procediendo a la corrección de los errores detectados y al ajuste de los últimos detalles previos a la puesta en producción, realizando el test de prueba en el departamento de desarrollo de producto.
40
CAPITULO VI
6. EJEMPLIFICACIÓN DE UN POSIBLE PROTOTIPO DE UN DATA
WEBHOUSE
6.1 DISEÑO PARA EL SISTEMA DE GESTIÓN DE INFORMACIÓN HOSPITALARIA GALÁN DEL HOSPITAL UNIVERSITARIO.
INTRODUCCIÓN
El presente trabajo teórico de un prototipo de data WebHouse para un sistema de gestión de información hospitalaria. El mismo constituye un estudio de aproximación teórica pues constituye un tema novedoso en nuestro país. A partir de una propuesta metodológica existente se realiza un ajuste de la misma a las condiciones y recursos disponibles a escala local con vistas a realizar un diseño teórico del Data WebHouse en cuestión. Se utilizan métodos como el teórico y se emplean procedimientos como la revisión bibliográfica. De igual modo se utiliza lenguaje de modelado como UML para el diseño teórico del prototipo. Finalmente el resultado del estudio será el diseño teórico del prototipo para el caso de estudio. Es necesario señalar que este estudio todavía está en etapa de ejecución, no está totalmente culminado y el mismo constituye la investigación a desarrollar para optar por la categoría científica.
APLICACIONES QUE SE USARÁ DURANTE EL ESTUDIO WebHouse, Interfaz Web, Clickstream, Secuencia de selecciones, Data Warehouse, Diseño de sistemas
41
DESARROLLO
Todas estas ventajas que se producen al integrar el DW y la tecnología Internet han propiciado que esta integración sea una realidad cada vez más palpable en el mundo. El advenimiento de una nueva forma de interactuar con los almacenes de datos ha traído como consecuencia la aparición de un nuevo término; el Data WebHouse esto o lo que es igual, el casamiento del DW con la Web. Esto se basa en el aprovechamiento de cada una de las acciones que realizan los usuarios sobre los sitios Web que conforman la Internet.
Esto puede ser un elemento central, cohesivo a aprovechar por los sistemas organizacionales de hoy en día a cualquier nivel. Una óptica de enfoque en el cliente / usuario a través de una visión de competitividad desde el punto de información como recurso para la toma estratégica de decisiones deberá ser vital y decisivo a la vez. El Data WebHouse es aún un concepto nuevo que todavía esta transitando por una fase de maduración y que necesita más tiempo para el logro de un mayor desarrollo y calidad. Dentro del contexto de la tecnología de la información se presenta como una solución que deberá ser imprescindible en su adopción por la cantidad de ventajas que ofrece.
En el contexto mundial actual uno de los ámbitos de trabajos que más datos acumula es el sector de la salud. Es innegable la existencia de infinidad de programas para el manejo de los registros médicos que actualmente se utilizan en este ámbito. Ello implica no solo el manejo de las estadísticas que permiten la gestión hospitalaria sino también la acumulación de datos como fuente de investigación biomédica.
Los hospitales son lugares de trabajo muy complejo. A los efectos de su dirección y administración, la mezcla de funciones asistenciales, docentes, investigativas y administrativas como centros importantes de servicios de salud con otras que podemos denominar de infraestructura, de ingeniería o de hotelería explican la afirmación precedente, máxime cuando se pretenden optimizar todos los procesos que
42
a diario se suceden en una institución que no "descansa" por prestar servicios continuados las 24 horas del día y los 365 días del año.
Por otra parte, es considerable el volumen de datos que se generan y se requieren para la gestión hospitalaria. Es por ello que para lograr calidad en la dirección y la administración de estas instituciones en los tiempos actuales, se necesita, cada vez más e inexorablemente de su informatización.
En el caso especifico de Cuba, a pesar de existir un Sistema Nacional de Estadísticas de Salud vamos a encontrar un grupo de soluciones de gestión de la información de carácter local que se han estado desarrollando en dependencia del potencial científico y tecnológico con que cuenta cada institución del sistema de salud cubano. Un ejemplo representativo de esto es el caso del Sistema de Gestión de Información Hospitalaria (SGIH) GALÁN del Hospital Universitario Lima. En este centro se inició de manera incipiente el trabajo de informatización en 1986, proceso que se ha acelerado durante la última década, pues no fue sino hasta finales del año 1997 en que se comenzó la elaboración de un proyecto mucho más integral que ha abarcado de manera paulatina prácticamente a todas las esferas y servicios para dar respuesta a las necesidades crecientes de optimizar la gestión informática del centro.
En un comienzo se fueron identificando las prioridades en los departamentos que contaban con la mayor parte de la información. Por ello el Departamento de Registros Médicos fue el que más impulso recibió en los inicios. Se crearon módulos con recursos y personal propios de la institución, se capacitó al personal, se elaboró un Proyecto de Informatización General de los Servicios y se constituyó el actual Centro de Gestión Informática (CGI). Se crearon las bases de datos centralizadas para dar respuesta a los diferentes tipos de usuarios.
Fue necesario la creación de la red interna del centro que actualmente cuenta con aproximadamente 148 computadoras, ubicadas estratégicamente en los lugares de mayor demanda de información y procesamiento y se elaboraron los primeros módulos
43
informatizados. Surge así un SGIH denominado GALÁN que cuenta con 38 módulos de informatización
Si bien este sistema presenta inobjetablemente un grupo de potencialidades que lo hacen atractivo para su uso el mismo presenta un insuficiente aprovechamiento de las potencialidades de la red interna del centro para la interacción de los usuarios con las bases de datos de la misma a través de interfaces Web o lo que es igual necesita de un diseño efectivo de Data WebHouse que proporcione acceso vía interfaz Web a los datos de modo tal que contribuya de forma efectivo a la toma estratégica de decisiones en el centro.
ANÁLISIS DEL PROBLEMA
En base a lo hablado anteriormente se toma en cuenta lo siguiente:
PROBLEMA CIENTÍFICO: El insuficiente aprovechamiento de las potencialidades de las interfaces Web para la gestión de la información en el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario en Lima.
OBJETO DE INVESTIGACIÓN: El acceso vía interfaz Web a las bases de datos que integran el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario.
CAMPO DE ACCIÓN: Implementación de un diseño de un prototipo de Data WebHouse para el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario en Lima.
44
Si se hace un diseño teórico de un prototipo de Data WebHouse para el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario en Lima se logrará una propuesta metodológica que de elaborarse e implementarse logrará un mayor nivel de aprovechamiento de los datos para la toma de decisiones y que esto contribuya a que esta sea una institución por la excelencia de los servicios.
OBJETIVOS Y SOLUCIONES
OBJETIVO GENERAL: Diseñar teóricamente un prototipo de Data WebHouse para el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario en Lima.
Para lograr el objetivo de nuestra investigación pretendemos cumplir las siguientes tareas de investigación:
Análisis teórico del estado en que se encuentra la problemática planteada en la bibliografía contemporánea.
Estudio de la experiencia acumulada en el desarrollo, aplicación y validación de sistemas informáticos.
Estudio de la experiencia acumulada en el desarrollo, aplicación y validación de metodologías para el diseño de interfaces de usuario tipo Web.
Estudio de las diferentes plataformas para la implementación de sitios Web interactivos: Plataformas Cliente - Servidor, Active Server Pages (ASP), Common Gateway Interface (CGI), etc.
Estudio de los diferentes Sistemas de Gestión de Bases de Datos (SGBD) Relacionales – SQL Server, Oracle, etc. –
Diseño de un prototipo teórico de Data WebHouse que permita la integración y almacenamiento de toda la información generada por el sistema GALÁN del Hospital Universitario.
45
DISEÑO DEL PROTOTIPO
Este diseño deberá cumplir metodológicamente con el desarrollo de los siguientes elementos componentes:
Visión General del proyecto de diseño de Data WebHouse Data Warehouse para Análisis del Secuencia de Selecciones Aplicaciones de Data WebHouse
Usuarios del Data WebHouse Arquitectura
Definición del origen de los datos a medir Definición de las Dimensiones
Modelación resultante de la unión de las tablas de datos y las dimensiones definidas.
Implementación del proceso de captura Fuente de Datos
Granularidad de la Secuencia de Selecciones
Impacto de la implementación del Data WebHouse en el sitio existente Características del sitio que influenciara en el proceso de captura Identificación de usuarios
Asociación de usuarios con una identificación permanente Control de sesiones de usuario
Aspectos de seguridad y privacidad Compilación de la información del usuario Definición de los datos a colectar
Compilación de datos Desempeño de la solución
Consideraciones sobre el proceso de Implementación del Data WebHouse diseñado
46
Consideraciones sobre el proceso Implementación del proceso de extracción y transformación.
Arquitectura postproceso
Implementación del proceso de carga Análisis de la Información