CC5608 - Inteligencia de
Negocios
Clase 5 – Capa lógica y
capa de visualización
Universidad de Chile
Arquitectura general
Las soluciones de Business Intelligence se construyen sobre una
arquitectura general básica que comprende las siguientes
componentes:
Capa lógica
•
La capa lógica contiene los esquemas de los cubos OLAP, la lógica
del sistema de gestión sobre la cual se realizarán las consultas y
contiene a las herramientas de Data Mining.
Capa lógica
•
¿Qué es OLAP?
Online analytical processing, procesamiento analítico en línea
Interacción con alto rendimiento, tecnología optimizada para respuesta rápida e interactiva.
Es un tipo de aplicación que pretende facilitar el análisis multidimensional de la información (datos que han sido agregados en varias categorías o dimensiones), para múltiples usuarios.
OLAP nos permite visualizar datos dimensionalmente, por ejemplo, ventas por región, por canal, por período de tiempo, etc
Nos permite navegar y explorar los resultados del análisis
Análisis ad-hoc
Navegar en profundidad de detalle (por ejemplo, de año a trimestre)
Pivotear
Seleccionar miembros específicos para el análisis
Capa lógica
•
Algunos usos son
Finanzas: Presupuestación, costeo basado en actividades, pronósticos, análisis de rentabilidad.
Ventas: Análisis y proyección
Marketing: Investigación de mercado, análisis y segmentación de clientes
Manufactura: Planificación de la producción, análisis de defectos
Riesgo: Índices de morosidad, señales de deterioro
Capa lógica
•
Conceptos OLAP
Cubos Hechos Dimensiones Jerarquías y niveles Miembros Propiedades Dimensiones conformadas Dimensiones combinadas y degeneradas
Capa lógica
•
Conceptos OLAP: Cubos
Bases de datos relacionales organizan datos en tablas planas de dos dimensiones.
Filas y columnas con intersecciones únicas entre datos.
Las BD Multidimensionales dependen de estructuras llamadas cubos.
Un cubo es una colección de medidas y dimensiones.
Pueden haber n dimensiones.
Las medidas son evaluadas en la intersección de todas las “N” dimensiones.
Los cubos pueden ser esparcidos o densos (pocas o muchas intersecciones). Los cubos permiten la agregación a través de jerarquías dimensionales.
Capa lógica
•
Conceptos OLAP: Hechos
El Data Warehouse sobre el que se basa un cubo OLAP, está estructurado con una o más tablas de hechos como estructura central.
Contiene los valores de las medidas de negocio, las que son evaluadas en la intersección de las dimensiones que la definen.
Las tablas de hechos proveen los valores agregados que actúan como variables independientes por las que son analizadas los atributos dimensionales.
Los hechos están definidos por su granularidad, que definirá los niveles de las dimensiones. El grano de una tabla de hechos es el nivel más atómico por el que pueden ser definidos los hechos.
Por ejemplo, ventas por día, producto y tienda, cada registro en la tabla de hechos estará definido de manera única por un día, un producto y una tienda.
Capa lógica
•
Conceptos OLAP: Dimensiones
Las dimensiones contienen los atributos o campos usados para filtrar y agrupar datos al ejecutar consultas al Data Warehouse.
Dan el contexto a las medidas del Cubo
Definen los niveles de agregación de los datos
Capa lógica
•
Conceptos OLAP: Dimensiones
Los cubos pueden tener más de dos dimensiones.
El cubo del diagrama tiene tres
dimensiones. Ruta, Origen, Tiempo.
El cubo del diagrama tiene dos medidas, Paquetes (Packages) y Último (Last)
Capa lógica
•
Conceptos OLAP: Niveles
Cada dimensión contiene niveles.
Por ejemplo, la dimensión Route (Ruta) en el
diagrama tiene dos niveles:
Hemisferio
Capa lógica
•
Conceptos OLAP: Jerarquías
Las jerarquías pueden existir en una dimensión en la cual sirven como navegaciones predefinidas
Las jerarquías son el ordenamiento de los datos mediante los diversos niveles
Una jerarquía está compuesta de uno o más niveles
Una dimensión puede tener una o más jerarquías
Por ejemplo, la dimensión tiempo tiene la siguiente jerarquía:
Semestre->trimestre->día
Capa lógica
•
Conceptos OLAP: Miembros
Cada nivel organiza los elementos básicos de una dimensión en miembros. Cada miembro representa: Un elemento de dato único dentro de una dimensión.
Capa lógica
•
Conceptos OLAP: Miembros
14
En el diagrama, el nivel Hemisferio Este (Eastern Hemisphere) tiene cuatro miembros: África, Asia, Australia, Y Europa.
El nivel no terrestre (nonground) de la
Capa lógica
•
Conceptos OLAP: Propiedades
Cada nivel de dimensión tiene un atributo primario que provee un “identificador único” para ese nivel
Capa lógica
•
Conceptos OLAP: Dimensiones conformadas
Son aquellas que son compartidas entre esquemas estrella.
Permite el diseño escalable de bases de datos analíticas.
Permite el análisis y agregación por área entre distintos sujetos.
Capa lógica
•
Conceptos OLAP: Dimensiones combinadas y degeneradas
Una dimensión degenerada es una dimensión que puede ser representada con un solo atributo.
Al menos que el tipo de dato sea grande, estas dimensiones son almacenadas como una columna en la tabla de hechos.
Si hay más de una dimensión degenerada y
tienen algún grado de relación
sus cardinalidades son relativamente pequeñas, de forma tal que un producto cartesiano no produce muchas filas.
Entonces, estas dimensiones son “combinadas” para formar una dimensión combinada
Una columna por atributo/dimensión.
Capa lógica
•
Conceptos OLAP: Dimensiones combinadas y degeneradas
Ejemplo: 18 MEDIO_PAGO ID Tipo 1 Efectivo 2 Tarjeta de crédito 3 Cheque DESPACHO ID Tipo 1 Entrega a domicilio 2 Retirado por cliente
MEDIO_PAGO_DESPACHO ID Tipo
1 Efectivo Entrega a domicilio
2 Efectivo Retirado por cliente
3 Tarjeta de crédito Entrega a domicilio 4 Tarjeta de crédito Retirado por cliente
5 Cheque Entrega a domicilio
Capa lógica
•
Conceptos OLAP: Hechos aditivos vs. Semi-aditivos
Los hechos aditivos se agregan a través de todas las dimensiones, por ejemplo, ingreso por venta.
Los hechos semi-aditivos agregan a través de dimensionalidad parcial, generalmente no agregan en la dimensión tiempo, por ejemplo, artículos
Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?
Pregunta inválida: ¿Cuántos ítems habían en el inventario en julio?
La segunda pregunta no tiene sentido. ¿quiere la cantidad promedio por día para julio? ¿la cantidad al comienzo del mes? ¿Al final?
Los hechos semi-aditivos generalmente se miden en un punto de tiempo (como una foto del estado en un momento determinado).
Capa lógica
•
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los cubos OLAP se construyen en base a esquemas basados en el Data Warehouse
Para esquemas estrella, una tabla de dimensión mapea a una dimensión del cubo.
Los elementos críticos a identificar antes de crear un esquema de cubo con las dimensiones:
Columna de Clave Foránea en Tabla de Hecho.
Columna de Clave Primaria en Tabla Dimensión.
Niveles de jerarquías dentro de la Dimensión
Capa lógica
•
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Los elementos críticos a identificar antes de crear un esquema de cubo con las dimensiones:
Para cada nivel de jerarquía:
Columna de Clave de Nivel: Identifica unívocamente las instancias dentro del nivel.
Columna de Visualización: lo que ve el usuario final.
Columna de ordenamiento: Como las instancias de nivel están ordenadas por defecto.
Columnas de propiedades: Atributos adicionales del nivel que dependen de la columna de clave de nivel.
Capa lógica
•
Conceptos OLAP: Mapeo de tablas a esquema de cubo
Las medidas mapean a columnas en la tabla de hechos y generalmente son definidas como nodos en una definición de cubo.
Las medidas se mapean a una columna o usan una expresión SQL (debe ser válida para un agregado)
Los valores para agregación son suma, contar, mínimo, máximo, promedio, contar distinto (sum, count, min, mas, avg, distinct count)
Los tipos de datos son enteros, numéricos y string (integer, numeric, string)
Capa lógica
Capa lógica
•
Data Mining: Otra herramienta de la capa lógica
La minería de datos es el proceso de extraer patrones desde los datos, es una herramienta muy importante para la transformación de datos en información.
Es ampliamente usada en practicas de perfilamiento, como marketing, fiscalización, detección de fraudes y descubrimiento científico.
Está basado en algoritmos provenientes de la inteligencia artificial y la estadísticas
Implementa complejos modelos matemáticos para el descubrimiento de información
Capa lógica
•
Data Mining: Otra herramienta de la capa lógica
Data Mining es el proceso de descubrir patrones de información interesante y potencialmente útiles, inmersos en una gran base de datos.
Es una combinación de procesos como:
Extracción de datos
Limpieza de datos.
Selección de características.
Algoritmos.
Capa lógica
•
Data Mining: Otra herramienta de la capa lógica
Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande, y mediante su análisis predicen posibles tendencias o comportamientos futuros, permitiendo al experto tomar decisiones en los negocios de una forma rápida y utilizando un conocimiento que de otra forma no habría encontrado.
Algunas posibilidades que ofrecen estas herramientas son:
Predicción automatizada de tendencias y comportamientos.
Descubrimiento automatizado de modelos desconocidos.
Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.
Capa lógica
•
Data Mining: Contexto
Los humanos han extraído patrones de manera manual por siglos, pero el aumento en los volúmenes de datos ha requerido enfoques más automatizados.
Los métodos antiguos para identificación de patrones incluyen el teorema de Bayes (1700s) y análisis de regresión (1800s).
La automatización del procesamiento de datos ha surgido impulsada por otros descubrimientos de las ciencias de la computación, como las redes neuronales, clustering, algoritmos genéticos (1950), árboles de decisión (1960), y support vector machines (1980).
Capa lógica
•
Data Mining: Aplicaciones
Customer Relationship Management
Segmentación de clientes Database Marketing Predicción de compra Retención de clientes Predicción de fuga Detección de Fraude Tarjetas de crédito
Uso de teléfonos (celulares) Predicción de series de tiempo
Capa lógica
•
Data Mining: La Minería de Datos forma parte de un proceso de
KDD:
Transformación
Datos Datos seleccionados
Capa lógica
•
Data Mining: Etapas
Determinación de los objetivos
Preprocesamiento de los datos
Determinación del modelo y extracción de conocimiento
Interpretación y análisis de los resultados
Capa lógica
•
Data Mining: Etapas
Determinación de los objetivos: Delimitar los objetivos del proyecto bajo la orientación del especialista en Data Mining.
Capa lógica
•
Data Mining: Etapas
Preprocesamiento de los datos: En el proceso de limpieza de datos podemos encontrarnos con los siguientes tipos de datos perdidos
Not Missing at Random or Nonignorable (NMAR):
Los valores perdidos dependen del valor de la variable.
Por ejemplo, dentro de mi variable sueldo, me faltan todos los valores entre sueldos de $500.000 y 700.000
Missing at Random (MAR):
Los valores perdidos se relacionan con los valores de las otras variables dentro de la base de datos.
Por ejemplo, de mi variable sueldo, me faltan todos los valores de los sueldos de la gente que vive en Punta Arenas
Missing Completely at Random (MCAR):
Los valores perdidos no se relacionan con las variables en la base de datos
Capa lógica
•
Data Mining: Etapas
Determinación del modelo y extracción de conocimiento: se comienza realizando un análisis estadístico de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos.
Capa lógica
•
Data Mining: Para saber qué modelos de Data Mining utilizar, una
de las cosas que debemos entender es el nivel de los datos.
34
Nivel Significado Ejemplo Operación
permitida
Escala nominal Nombre de objetos Número de teléfono Comparación
Escala ordinal Orden de objetos Notas (1..7) Transformación
monótona Escala de intervalo Punto cero y unidad
arbitrarios
Temperatura en grados Celcius
f(x)=ax + b a>0
Escala de proporción Dado el punto cero unidad arbitraria
Peso en Kg Ingreso en $
f(x)=ax
Escala absoluta Dado el punto cero y la unidad
Contar objetos
Número de artículos
Capa lógica
•
Data Mining: Relación con otras disciplinas análogas
Estadística
Análisis de varianza: evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintas.
Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
Prueba chi-cuadrado: mide la discrepancia entre una distribución observada y otra teórica.
Capa lógica
•
Data Mining: Relación con otras disciplinas análogas
Estadística
Análisis discriminante: analiza si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los mismos
Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
Capa lógica
•
Data Mining: Relación con otras disciplinas análogas
Computación
Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
Capa lógica
•
Data Mining: Relación con otras disciplinas análogas
Computación
Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con lo que tenía que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura (aprende), hasta obtener un modelo adecuado.
Capa lógica
•
Data Mining: Aplicación de las técnicas
Regresión lineal: Esta técnica se utiliza para la predicción de variables que son aproximables por funciones lineales. Permite definir líneas de tendencia, para una serie de datos obtenidos durante un largo período, por ejemplo, valor de las acciones.
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresión lineal.
Capa lógica
•
Data Mining: Aplicación de las técnicas
Redes neuronales: Esta técnica se utiliza para simular el comportamiento del cerebro. Se utiliza con conjuntos de datos de entrada y sus características para entrenar a la red.
En medicina, para el diagnóstico de imágenes médicas, durante la fase de entrenamiento el sistema recibe imágenes de tejidos que se sabe son cancerígenos y tejidos que se sabe son sanos, así como las respectivas clasificaciones de dichas imágenes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podrá recibir imágenes de tejidos no clasificados y obtener su clasificación sano/no sano con un buen grado de seguridad.
Capa lógica
•
Data Mining: Aplicación de las técnicas
Árboles de decisión: Se utilizan para esquematizar decisiones secuenciales que muestran resultados a partir de un conjunto de datos de entrada.
Se utiliza para tomar decisiones de negocio como por ejemplo, desarrollar un nuevo producto o consolidar uno ya desarrollado.
Capa lógica
•
Data Mining: Aplicación de las técnicas
Modelos estadísticos: Se utilizan para construir modelos que permitan predecir valores para datos futuros.
Por ejemplo, modelos de rentabilidad de clientes basados en segmentación. Caracterizan a los clientes y los agrupan de acuerdo a la variable rentabilidad. Luego, frente a un nuevo cliente o potencial cliente, se puede predecir su rentabilidad dadas sus características, identificando el segmento al que pertenece.
Arquitectura general
•
Visualización: La capa de visualización es la encargada de desplegar
los análisis sobre los cubos mediantes sus diversos cortes de
información, cruces y filtros;
•
También despliega los reportes estáticos, ad-hoc, tableros de
control, etc.
•
Esta capa tiene diversos medios por los que desplegar información:
En pantalla
En Web