Sistemas de Información Gerencial
Tema 5: Inteligencia de Negocios y Data Warehouse
1
2
INDICE
• Inteligencia de Negocios
• OLTP y OLAP
• Data Warehouse. Procesos
• Diseño de Data Warehouse
Inteligencia de Negocios
•
Algo peor que no tener
información disponible es
tener mucha información
Y no saber qué hacer con
Inteligencia de Negocios ¿Porqué?
Nivel ejecutivo no cuenta con una solución integrada donde pueda analizar los indicadores operativos y financieros
No cuentan con una perspectiva que les permita tomar decisiones
La información reside en diferentes sistemas: ERP, CRM, archivos planos
Cuando surge la necesidad de información mucha gente se ve involucrada
El problema
El departamento de sistemas destinan mucho tiempo a la elaboración de reportes
No existe una sola versión verdadera de la información
No permite la realización de comparativos, análisis ni tendencias
La solución
Implementar un Sistema de Información Ejecutiva y Sistemas de Soporte a las Decisiones
Utilizar las mejores tecnologías del mercado
Involucramiento de los dueños de los procesos del negocio
Los beneficios
Habilidad de tomar las decisiones correctas en el momento correcto
Por medio de las herramientas necesarias para poder comparar y analizar tendencias
El tiempo invertido en la realización de presentaciones ejecutivas se ve reducido de forma significativa
Aplicaciones del BI
• Análisis de carteras de clientes • Reducción de costos
• Análisis de riesgo
• Planificación de Marketing • Segmentación de clientes
Definición de inteligencia de negocios
“Es el proceso de integración y tratamiento de los
datos para convertirlos en información que
permita apoyar a los tomadores de decisiones en
la organización”
Definición de inteligencia de negocios
Es una alternativa tecnológica que permite generar
conocimiento a la empresa
Es el uso de tecnologías para descubrir conocimiento
a partir de los datos que posee la empresa
Aplica
el
proceso
KDD
(Knowledge
Discovery
Databases) (Descubrir conocimiento en bases de
datos)
Inteligencia de negocios. Características
La solución es un sistema:
Para soporte de toma de decisiones (nivel gerencial)
Con capacidades de análisis de alcance empresarial
global
Integración y análisis de la información desde fuentes de
datos heterogéneas
Plataforma integrada
Herramientas ETL de gestión, administración y carga, el almacenamiento de datos y las funciones relacionadas con informes, servicios
Procedimientos analíticos integrados (OLAP)
Minería de datos (Uso de métodos inteligentes para extraer conocimiento )
Inteligencia de negocios. Características
Servicios de Análisis
Entorno en tiempo real
Indicadores claves de desempeño
Servicios de Reporte
Creación, administración y visualización de informes
Inteligencia de negocios. Características
Inteligencia de negocios provee soluciones a nivel
empresarial que permiten a los tomadores de decisiones
transformar información clave de su negocio en
acciones
concretas
traduciéndose
en
beneficios
tangibles:
Reducción de costos
Mayor rentabilidad
15
Herramientas de software que permiten:
•
Extracción y Transformación de los datos desde las
fuentes: Bases de datos, ERP, excel, archivos texto,
etc.
•
Carga de los datos transformados a la bodega
16
“Es un conjunto de datos integrados o orientados a un
objetivo específico, que varían con el tiempo (datos
históricos) y que no son transitorios.
Soportan el proceso de toma de decisiones de la
administración y está orientada al manejo de grandes
volúmenes de datos provenientes de diversas fuentes o
diversos tipos”
17
Una Bodega de Datos es una base de datos que
organiza y almacena una colección de información
derivada directamente de los sistemas operacionales y
de algunos datos externos
18
19
Bodega de Datos. Información
Se apoyan en tres procesos de organización de alto nivel:
Operaciones del negocio: Se refiere a las transacciones
cotidianas diarias del negocio.
La inteligencia de negocio: se refiere a la búsqueda de
una mejor comprensión de la compañía de sus productos, y sus clientes
La gerencia de negocio: es la función en la cual el
conocimiento nuevo y las acciones determinadas en la inteligencia del negocio se institucionalizan y se introducen en las operaciones diarias del negocio.
BI en la Empresa
Fuentes de
datos Extracción Almacén Herramientas Usuarios
DISEÑO
OLTP (On Line Transactional Process)
• Son sistemas de información operacionales que tienen transacciones en línea y de esa manera se van añadiendo datos.
El Diseño Transaccional es:
• Orientado a aplicaciones con movimientos constantes.
• Datos normalizados. Se busca ahorrar espacio de almacenamiento.
• Datos volátiles
• No existe sumarización de datos.
• Grandes niveles de detalle.
Lógica
OLAP (Online Analytical Process)
•
Tecnología que permite la
explotación de datos en
diferentes
niveles
organizacionales
y
El Data Warehouse esta:
• Orientado a áreas de la organización
• Integrado
• Los datos no son volátiles • Diversos niveles de detalle
con sumarizaciónes.
• Se disminuye la cantidad de ligas con modelos tipo estrella o copo de nieve.
www.EasyBI.cl 26
Conceptos Generales
Transacciones Fundamentos. Registrar y Controlar (OLTP) Ventas Inventarios Contabilidad Recursos Humanos Etc-Velocidad de Transacción Integridad de Información Evitar Redundancias “3ª Forma Normal” On-Line Transaction Processing Analizar y Evaluar (OLAP) Velocidad de Consultas Apoyo Toma de Decisiones“Desnormalizado”
On-Line Analytical Processing
Como operan las B.D. Relacionales
Los datos se almacenan en tablas
Cantidad 25000 15000 5000 27000 20000 6000 2700 8000 19000 54700 23000 6100 1800 7600 1200 2000 Variable Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Sales Expenses Cost of goods Sales Expenses Cost of goods Meses January January January February February February March March March Qtr1 April April April May May May Productos Large Large Large Large Large Large Large Large Large Large Medium Medium Medium Medium Medium Medium
Amount 25000 15000 5000 27000 20000 6000 2700 8000 19000 54700 23000 6100 1800 7600 1200 2000 Variable Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Sales Expenses Cost of goods Sales Expenses Cost of goods Months January January January February February February March March March Qtr1 April April April May May May Product Large Large Large Large Large Large Large Large Large Large Medium Medium Medium Medium Medium Medium
Variable January February March April May June Sales 25000 27000 24000 28000 30000 29000 Expenses 15000 20000 15000 17000 19000 14000 Cost of goods 5000 6000 5000 7000 7000 6000 de esta estructura a esta se necesita …
Lógica
Vista Multidimensional
Poder observar los datos desde distintas perspectivas.
Jan Feb Mar Apr TV VCR East West Total South East West Total South Actual Budget Sales Margin Sales Margin
position only Cogs Margin Total Exp Profit TV VCR Jan Feb Qtr 1 Mar East West Actual Budget Actual Budget
Jan Feb Qtr 1 Mar Jan Feb Mar Apr East West Actual Budget Variance Forecast Sales Margin TV VCR TV VCR Actual Budget Variance Forecast position only West SF LA Denver Sales Margin Camera TV Audio VCR February March Actual Budget Actual Budget
Camera TV Audio VCR Accounts by Product Regions by Scenario Products by Region Products by Time
OLAP
Inteligencia de Negocios
•
Componentes de Business Intelligence
Todas las soluciones de BI tienen funciones parecidas,
pero deben de reunir al menos los siguientes
componentes:
• Multidimensionalidad
• Data Mining
• Agentes
Inteligencia de Negocios
• Multidimensionalidad: la información multidimensional se puede encontrar en hojas de cálculo, bases de datos, etc.
• Por ejemplo, un pronóstico de ventas de un nuevo
producto en varias regiones no está completo si no se toma en cuenta también el comportamiento histórico de las ventas de cada región y la forma en que la introducción de nuevos productos se ha desarrollado en cada región en cuestión.
• Tabla de Dimensiones Ubicación Tiempo Mercado Productos • Tablas de Hechos Definición de Eventos
• Mercado .- Localización de una Sucursal o Agencia (Calle,
Colonia, Delegación o Municipio) tres niveles de detalle
• Tiempo .- Día de Facturación, Día de Entrega a Sucursales
o Agencias, Día de Entrega al Consumidor tres niveles de detalle
• Producto .- Suministro de Energía Eléctrica Monofásica,
Bifásica y Trifásica
tres niveles de detalle
Análisis de Datos
Inteligencia de Negocios
• Data Mining.- Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes.
• Las aplicaciones de data mining pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no muy evidentes.
Inteligencia de Negocios
• Agentes: Los agentes son programas que piensan. Ellos pueden realizar tareas a un nivel muy básico sin necesidad de intervención humana.
• Por ejemplo, un agente pueden realizar tares un poco complejas, como elaborar documentos, establecer diagramas de flujo, etc.
Inteligencia de Negocios
• Data Warehouse: Es la respuesta de la tecnología de
información a la descentralización en la toma de decisiones. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis.
Data Warehouse
Ø Un Data Warehouse es un almacenamiento separado y homogéneo donde son cargados datos transformados provenientes de diferentes bases de datos.
Data Warehouse
Colección integrada de información corporativa diseñada para la recuperación y el análisis en apoyo a los procesos de toma de decisiones.
Una sola visión de la información de su empresa.
Múltiples y ambiguas definiciones habrían sido eliminadas...
“Mecanismo para entregar información de negocios integrada”.
• Colección de datos integrados, variantes en el tiempo, no volátiles, orientados a temas de interés para la gestión de una organización o empresa, que ayuda en los procesos de toma de decisiones.
• Es una combinación de conceptos y tecnologías destinadas a satisfacer los requerimientos de una organización o empresa, en términos de mejorar la gestión, con eficiencia y facilidad de acceso.
40
41
Conceptos Generales
Características de un DataWarehouse Orientado a Temas Integrado Variantes en el TiempoLos datos se organizan y estructuran de acuerdo a las áreas temáticas que son de interés para los directivos de la empresa y no en función de procesos operacionales específicos. Todos los datos relativos a una misma “entidad” quedarán en una tabla. Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos.
Un DW se organiza como una sucesión de “fotografías” de la organización o empresa, cada una asociada a un periodo o punto
específico del tiempo, lo que permite realizar análisis en función
del tiempo, con la finalidad de realizar pronósticos y análisis de tendencias.
No Volátil No se realizan actualización o eliminaciones de los datos, los
datos se insertan como nuevos registros y por tanto no sobrescriben los existentes.
Conceptos Generales
Componentes del Cubo
Tabla de Hechos Tabla de Dimensiones
Almacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados.
Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas. Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.
43
Conceptos Generales
Topología Estrella Copo de NieveLas dimensiones se relacionan directamente con la tabla de hechos.
Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso
robusto de administración de Información (por ejemplo EIAD). Las dimensiones se pueden relacionar con las tablas de
hechos, o con otras dimensiones.
Esta estrategia es mejor para la administración directa en el modelo de DW.
- ¿Están las ventas de artículos deportivos sujetas a tendencias por temporada? ¿Qué artículos se ven afectados y cuándo?
- ¿Cuántos autos se vendieron el mes pasado? ¿Cómo se compara esta cantidad con el mismo mes en los últimos cinco años?
- ¿Quiénes son los diez primeros vendedores o clientes en Latinoamérica? ¿Qué porcentaje del ingreso generan?
- ¿Cuáles son los diez artículos de menor rentabilidad en el catálogo de ventas?
Cómo justificar la inversión en un data
warehouse?
Ventajas - Data Warehouse
Datos de toda la compañía, organizados para facilitar las consultas más analíticas que transaccionales.
Modelo de datos multidimensional para hacer más fácil la navegación y explotación de datos.
Provee acceso a los datos organizacionales y corporativos.
Integra y asocia información de diversas fuentes de datos.
Brinda consistencia de datos y conceptos.
La información es de calidad, consistente y garantizada.
Soporta grandes volúmenes de información.
Data Warehouse. Principales Procesos
Data Warehouse. Principales Procesos
47
Extracción de Información :
Extracción de datos desde los sistemas operacionales
(alimentar procesos de transformación de datos).
Carga de Datos :
Carga de datos en el DW.
Control de Calidad :
Data Warehouse. Principales Procesos
48
Unificación, Transformación y limpieza de datos :
Unificación, validación y limpieza de tatos que pueden estar en mas de un sistema.
Auditoria y Seguridad :
Cuidar que los usuarios accedan a la información que les corresponde y registrar un seguimiento del acceso a los datos.
Sistema de Data Warehousing
50
CONCEPTO
ESENCIAL
Tecnología
Los Hechos :
Un hecho es un dato sensible al tiempo que es funcionalmente dependiente de las dimensiones que lo definen.
Ejemplo : Una matrícula.
Una matrícula es un hecho en el que un estudiante, en una determinada fecha, a través del banco o el departamento de finanzas, paga la matrícula de una determinada carrera.
Las dimensiones son estudiante, fecha, medio de pago y carrera. La matrícula es un valor agregado del hecho.
51
Metodología de Diseño
Tecnología
DATAWAREHOUSE
53
Diseño de Datawarehouse
• Etapa I : Análisis de los sistemas de Información
- Averiguar con los administradores de sistemas sobre posibles datos desconocidos o anormales (tratamiento de
los valores nulos).
- Seleccionar las fuentes operacionales en función de la calidad de los datos y estabilidad de sus esquemas (sincronización de vistas).
- Determinar cuales datos pueden ser totalmente integrados con el objeto de obtener un vista completa del dominio de la base de datos.
Diseño de Datawarehouse
• Etapa II : Especificación de Requerimientos
- Consiste en recolectar y filtrar los requerimientos de los usuarios. Como resultado se obtiene la definición de los hechos e indicaciones concernientes a las cargas de trabajo. - La selección de los hechos se basa en la documentación de
los sistemas de información. Los hechos son conceptos de interés primario para los procesos de toma de decisiones. - De la comparación de los datos preliminares de la etapa
anterior es posible saber que requerimientos pueden ser satisfechos.
Diseño de Datawarehouse
• Etapa III : Diseño Conceptual
Suponiendo que los sistemas operacionales son relacionales, para cada Hecho se deben realizar las siguientes acciones :
Construir el árbol de atributos
Podar e injertar el árbol de atributos
Definir las Dimensiones
Definir las Medidas
Definir las Jerarquías
Diseño de Datawarehouse
• Etapa III : Modelo de Hechos Dimensional (MHD)
Un Esquema Dimensional, que es una representación de la realidad usando el MHD, consiste en un conjunto de
esquemas de hechos (uno o mas hechos) cuyos elementos
básicos son hechos, dimensiones y jerarquías. Las metas del modelo de [Go99] son :
• Soportar eficientemente el diseño conceptual
• Proveer un ambiente expresivo para formular consultas
• Favorecer el refinamiento de los requerimientos
• Proveer una plataforma sólida para el diseño lógico
• Producir documentación expresiva y no ambigua
58
59
Diseño de Datawarehouse
Etapa III : Conceptos ClavesUna Instancia de Hecho Primario es una unidad de información presente en el DW.
Una Instancia de Hecho Secundaria corresponde a una agregación de una conjunto de hechos primarios.
Una Jerarquía es una relación de Muchos a Uno que se da entre los valores de un determinado conjunto de atributos pertenecientes a una dimensión.
Una Dimensión es un conjunto de atributos pertenecientes a una entidad asociada a uno o más hechos. Los atributos pertenecientes a una dimensión se utilizan como elementos de agrupación de los hechos o como mecanismos de búsqueda. Frecuentemente, los atributos de una dimensión conforman una
60
Diseño de Datawarehouse
Etapa IV : Refinamiento de Cargas y Validación de Esquemas
Esta fase esta orientada a:
1. Reformular las cargas de trabajo preliminares por medio de una reformulación detallada y profunda de los esquemas dimensionales.
2. Validar los esquemas desarrollados en las etapas anteriores. Las consultas correspondientes a las cargas de trabajo pueden ser correctamente formulada si las dimensiones o medidas han sido identificadas, jerarquizadas y correctamente formuladas.
61
Diseño de Datawarehouse
Etapa V : Diseño Lógico
La etapa del diseño lógico recibe como entrada un diseño multidimensional, cargas de trabajo e información adicional (frecuencias de actualización, disponibilidad de espacio de disco, etc.) para producir un esquema de DW que debería minimizar los tiempos de respuesta a las consultas, respetando las restricciones de espacio de disco.
Existen distintas alternativas de implementación tales como :
62
Diseño de Datawarehouse
Etapa V : Modelo EstrellaSe denomina modelo estrella cuando se define una gran tabla central con tablas más pequeñas desplegadas en torno a ellas.
63
Diseño de Datawarehouse
Etapa V : Modelo Copo de Nieve (Snowflake)
Cuando la normalización no interfiere en el rendimiento de DW esta se puede aplicar y en este caso se obtienen estructuras que se denominan snowflake.
Datamart
• Un subconjunto del
Data Warehouse para
cierto grupo de usuarios o funciones del negocio.
Datamart
o Qué es
o Es una parte de un DWH
o De un fin específico o actividad de negocio o Una solución táctica
o Porqué construir un Datamart
o Consultas más rápidas y menos usuarios o Tiempo de desarrollo más rápido
o Datamarts integrados
o Asegurar la consistencia de datos
Análisis y definición del alcance Mapeo de datos Extracción de información Transformación de información Creación de cubos multidimensionales Creación de vistas ejecutivas Documentación Capacitación a usuarios y sistemas
Proceso de
desarrollo
67