• No se han encontrado resultados

CC Inteligencia de Negocios

N/A
N/A
Protected

Academic year: 2021

Share "CC Inteligencia de Negocios"

Copied!
50
0
0

Texto completo

(1)

CC5608 - Inteligencia de

Negocios

Clase 5 – Capa lógica y

capa de visualización

Universidad de Chile

(2)

Arquitectura general

Las soluciones de Business Intelligence se construyen sobre una

arquitectura general básica que comprende las siguientes

componentes:

(3)

Capa lógica

La capa lógica contiene los esquemas de los cubos OLAP, la lógica

del sistema de gestión sobre la cual se realizarán las consultas y

contiene a las herramientas de Data Mining.

(4)

Capa lógica

¿Qué es OLAP?

 Online analytical processing, procesamiento analítico en línea

 Interacción con alto rendimiento, tecnología optimizada para respuesta rápida e interactiva.

 Es un tipo de aplicación que pretende facilitar el análisis multidimensional de la información (datos que han sido agregados en varias categorías o dimensiones), para múltiples usuarios.

 OLAP nos permite visualizar datos dimensionalmente, por ejemplo, ventas por región, por canal, por período de tiempo, etc

 Nos permite navegar y explorar los resultados del análisis

 Análisis ad-hoc

 Navegar en profundidad de detalle (por ejemplo, de año a trimestre)

 Pivotear

 Seleccionar miembros específicos para el análisis

(5)

Capa lógica

Algunos usos son

 Finanzas: Presupuestación, costeo basado en actividades, pronósticos, análisis de rentabilidad.

 Ventas: Análisis y proyección

 Marketing: Investigación de mercado, análisis y segmentación de clientes

 Manufactura: Planificación de la producción, análisis de defectos

 Riesgo: Índices de morosidad, señales de deterioro

(6)

Capa lógica

Conceptos OLAP

 Cubos  Hechos  Dimensiones  Jerarquías y niveles  Miembros  Propiedades  Dimensiones conformadas

 Dimensiones combinadas y degeneradas

(7)

Capa lógica

Conceptos OLAP: Cubos

 Bases de datos relacionales organizan datos en tablas planas de dos dimensiones.

 Filas y columnas con intersecciones únicas entre datos.

 Las BD Multidimensionales dependen de estructuras llamadas cubos.

 Un cubo es una colección de medidas y dimensiones.

 Pueden haber n dimensiones.

 Las medidas son evaluadas en la intersección de todas las “N” dimensiones.

 Los cubos pueden ser esparcidos o densos (pocas o muchas intersecciones).  Los cubos permiten la agregación a través de jerarquías dimensionales.

(8)

Capa lógica

Conceptos OLAP: Hechos

 El Data Warehouse sobre el que se basa un cubo OLAP, está estructurado con una o más tablas de hechos como estructura central.

 Contiene los valores de las medidas de negocio, las que son evaluadas en la intersección de las dimensiones que la definen.

 Las tablas de hechos proveen los valores agregados que actúan como variables independientes por las que son analizadas los atributos dimensionales.

 Los hechos están definidos por su granularidad, que definirá los niveles de las dimensiones. El grano de una tabla de hechos es el nivel más atómico por el que pueden ser definidos los hechos.

 Por ejemplo, ventas por día, producto y tienda, cada registro en la tabla de hechos estará definido de manera única por un día, un producto y una tienda.

(9)

Capa lógica

Conceptos OLAP: Dimensiones

 Las dimensiones contienen los atributos o campos usados para filtrar y agrupar datos al ejecutar consultas al Data Warehouse.

 Dan el contexto a las medidas del Cubo

 Definen los niveles de agregación de los datos

(10)

Capa lógica

Conceptos OLAP: Dimensiones

 Los cubos pueden tener más de dos dimensiones.

 El cubo del diagrama tiene tres

dimensiones. Ruta, Origen, Tiempo.

 El cubo del diagrama tiene dos medidas, Paquetes (Packages) y Último (Last)

(11)

Capa lógica

Conceptos OLAP: Niveles

 Cada dimensión contiene niveles.

 Por ejemplo, la dimensión Route (Ruta) en el

diagrama tiene dos niveles:

 Hemisferio

(12)

Capa lógica

Conceptos OLAP: Jerarquías

 Las jerarquías pueden existir en una dimensión en la cual sirven como navegaciones predefinidas

 Las jerarquías son el ordenamiento de los datos mediante los diversos niveles

 Una jerarquía está compuesta de uno o más niveles

 Una dimensión puede tener una o más jerarquías

 Por ejemplo, la dimensión tiempo tiene la siguiente jerarquía:

Semestre->trimestre->día

(13)

Capa lógica

Conceptos OLAP: Miembros

 Cada nivel organiza los elementos básicos de una dimensión en miembros.  Cada miembro representa:  Un elemento de dato único dentro de una dimensión.

(14)

Capa lógica

Conceptos OLAP: Miembros

14

 En el diagrama, el nivel Hemisferio Este (Eastern Hemisphere) tiene cuatro miembros: África, Asia, Australia, Y Europa.

 El nivel no terrestre (nonground) de la

(15)

Capa lógica

Conceptos OLAP: Propiedades

 Cada nivel de dimensión tiene un atributo primario que provee un “identificador único” para ese nivel

(16)

Capa lógica

Conceptos OLAP: Dimensiones conformadas

 Son aquellas que son compartidas entre esquemas estrella.

 Permite el diseño escalable de bases de datos analíticas.

 Permite el análisis y agregación por área entre distintos sujetos.

(17)

Capa lógica

Conceptos OLAP: Dimensiones combinadas y degeneradas

 Una dimensión degenerada es una dimensión que puede ser representada con un solo atributo.

 Al menos que el tipo de dato sea grande, estas dimensiones son almacenadas como una columna en la tabla de hechos.

 Si hay más de una dimensión degenerada y

 tienen algún grado de relación

 sus cardinalidades son relativamente pequeñas, de forma tal que un producto cartesiano no produce muchas filas.

 Entonces, estas dimensiones son “combinadas” para formar una dimensión combinada

 Una columna por atributo/dimensión.

(18)

Capa lógica

Conceptos OLAP: Dimensiones combinadas y degeneradas

 Ejemplo: 18 MEDIO_PAGO ID Tipo 1 Efectivo 2 Tarjeta de crédito 3 Cheque DESPACHO ID Tipo 1 Entrega a domicilio 2 Retirado por cliente

MEDIO_PAGO_DESPACHO ID Tipo

1 Efectivo Entrega a domicilio

2 Efectivo Retirado por cliente

3 Tarjeta de crédito Entrega a domicilio 4 Tarjeta de crédito Retirado por cliente

5 Cheque Entrega a domicilio

(19)

Capa lógica

Conceptos OLAP: Hechos aditivos vs. Semi-aditivos

 Los hechos aditivos se agregan a través de todas las dimensiones, por ejemplo, ingreso por venta.

 Los hechos semi-aditivos agregan a través de dimensionalidad parcial, generalmente no agregan en la dimensión tiempo, por ejemplo, artículos

 Pregunta válida: ¿Cuántos ítems habían en el inventario el primero de julio?

 Pregunta inválida: ¿Cuántos ítems habían en el inventario en julio?

 La segunda pregunta no tiene sentido. ¿quiere la cantidad promedio por día para julio? ¿la cantidad al comienzo del mes? ¿Al final?

 Los hechos semi-aditivos generalmente se miden en un punto de tiempo (como una foto del estado en un momento determinado).

(20)

Capa lógica

Conceptos OLAP: Mapeo de tablas a esquema de cubo

 Los cubos OLAP se construyen en base a esquemas basados en el Data Warehouse

 Para esquemas estrella, una tabla de dimensión mapea a una dimensión del cubo.

 Los elementos críticos a identificar antes de crear un esquema de cubo con las dimensiones:

 Columna de Clave Foránea en Tabla de Hecho.

 Columna de Clave Primaria en Tabla Dimensión.

 Niveles de jerarquías dentro de la Dimensión

(21)

Capa lógica

Conceptos OLAP: Mapeo de tablas a esquema de cubo

 Los elementos críticos a identificar antes de crear un esquema de cubo con las dimensiones:

 Para cada nivel de jerarquía:

 Columna de Clave de Nivel: Identifica unívocamente las instancias dentro del nivel.

 Columna de Visualización: lo que ve el usuario final.

 Columna de ordenamiento: Como las instancias de nivel están ordenadas por defecto.

 Columnas de propiedades: Atributos adicionales del nivel que dependen de la columna de clave de nivel.

(22)

Capa lógica

Conceptos OLAP: Mapeo de tablas a esquema de cubo

 Las medidas mapean a columnas en la tabla de hechos y generalmente son definidas como nodos en una definición de cubo.

 Las medidas se mapean a una columna o usan una expresión SQL (debe ser válida para un agregado)

 Los valores para agregación son suma, contar, mínimo, máximo, promedio, contar distinto (sum, count, min, mas, avg, distinct count)

 Los tipos de datos son enteros, numéricos y string (integer, numeric, string)

(23)

Capa lógica

(24)

Capa lógica

Data Mining: Otra herramienta de la capa lógica

 La minería de datos es el proceso de extraer patrones desde los datos, es una herramienta muy importante para la transformación de datos en información.

 Es ampliamente usada en practicas de perfilamiento, como marketing, fiscalización, detección de fraudes y descubrimiento científico.

 Está basado en algoritmos provenientes de la inteligencia artificial y la estadísticas

 Implementa complejos modelos matemáticos para el descubrimiento de información

(25)

Capa lógica

Data Mining: Otra herramienta de la capa lógica

 Data Mining es el proceso de descubrir patrones de información interesante y potencialmente útiles, inmersos en una gran base de datos.

 Es una combinación de procesos como:

 Extracción de datos

 Limpieza de datos.

 Selección de características.

 Algoritmos.

(26)

Capa lógica

Data Mining: Otra herramienta de la capa lógica

 Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande, y mediante su análisis predicen posibles tendencias o comportamientos futuros, permitiendo al experto tomar decisiones en los negocios de una forma rápida y utilizando un conocimiento que de otra forma no habría encontrado.

 Algunas posibilidades que ofrecen estas herramientas son:

 Predicción automatizada de tendencias y comportamientos.

 Descubrimiento automatizado de modelos desconocidos.

 Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.

(27)

Capa lógica

Data Mining: Contexto

 Los humanos han extraído patrones de manera manual por siglos, pero el aumento en los volúmenes de datos ha requerido enfoques más automatizados.

 Los métodos antiguos para identificación de patrones incluyen el teorema de Bayes (1700s) y análisis de regresión (1800s).

 La automatización del procesamiento de datos ha surgido impulsada por otros descubrimientos de las ciencias de la computación, como las redes neuronales, clustering, algoritmos genéticos (1950), árboles de decisión (1960), y support vector machines (1980).

(28)

Capa lógica

Data Mining: Aplicaciones

 Customer Relationship Management

 Segmentación de clientes  Database Marketing  Predicción de compra  Retención de clientes  Predicción de fuga  Detección de Fraude  Tarjetas de crédito

 Uso de teléfonos (celulares)  Predicción de series de tiempo

(29)

Capa lógica

Data Mining: La Minería de Datos forma parte de un proceso de

KDD:

Transformación

Datos Datos seleccionados

(30)

Capa lógica

Data Mining: Etapas

 Determinación de los objetivos

 Preprocesamiento de los datos

 Determinación del modelo y extracción de conocimiento

 Interpretación y análisis de los resultados

(31)

Capa lógica

Data Mining: Etapas

 Determinación de los objetivos: Delimitar los objetivos del proyecto bajo la orientación del especialista en Data Mining.

(32)

Capa lógica

Data Mining: Etapas

 Preprocesamiento de los datos: En el proceso de limpieza de datos podemos encontrarnos con los siguientes tipos de datos perdidos

 Not Missing at Random or Nonignorable (NMAR):

 Los valores perdidos dependen del valor de la variable.

 Por ejemplo, dentro de mi variable sueldo, me faltan todos los valores entre sueldos de $500.000 y 700.000

 Missing at Random (MAR):

 Los valores perdidos se relacionan con los valores de las otras variables dentro de la base de datos.

 Por ejemplo, de mi variable sueldo, me faltan todos los valores de los sueldos de la gente que vive en Punta Arenas

 Missing Completely at Random (MCAR):

 Los valores perdidos no se relacionan con las variables en la base de datos

(33)

Capa lógica

Data Mining: Etapas

 Determinación del modelo y extracción de conocimiento: se comienza realizando un análisis estadístico de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos.

(34)

Capa lógica

Data Mining: Para saber qué modelos de Data Mining utilizar, una

de las cosas que debemos entender es el nivel de los datos.

34

Nivel Significado Ejemplo Operación

permitida

Escala nominal Nombre de objetos Número de teléfono Comparación

Escala ordinal Orden de objetos Notas (1..7) Transformación

monótona Escala de intervalo Punto cero y unidad

arbitrarios

Temperatura en grados Celcius

f(x)=ax + b a>0

Escala de proporción Dado el punto cero unidad arbitraria

Peso en Kg Ingreso en $

f(x)=ax

Escala absoluta Dado el punto cero y la unidad

Contar objetos

Número de artículos

(35)

Capa lógica

Data Mining: Relación con otras disciplinas análogas

 Estadística

 Análisis de varianza: evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintas.

 Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.

 Prueba chi-cuadrado: mide la discrepancia entre una distribución observada y otra teórica.

(36)

Capa lógica

Data Mining: Relación con otras disciplinas análogas

 Estadística

 Análisis discriminante: analiza si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los mismos

 Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.

(37)

Capa lógica

Data Mining: Relación con otras disciplinas análogas

 Computación

 Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.

 Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.

(38)

Capa lógica

Data Mining: Relación con otras disciplinas análogas

 Computación

 Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con lo que tenía que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura (aprende), hasta obtener un modelo adecuado.

(39)

Capa lógica

Data Mining: Aplicación de las técnicas

 Regresión lineal: Esta técnica se utiliza para la predicción de variables que son aproximables por funciones lineales. Permite definir líneas de tendencia, para una serie de datos obtenidos durante un largo período, por ejemplo, valor de las acciones.

 En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresión lineal.

(40)

Capa lógica

Data Mining: Aplicación de las técnicas

 Redes neuronales: Esta técnica se utiliza para simular el comportamiento del cerebro. Se utiliza con conjuntos de datos de entrada y sus características para entrenar a la red.

 En medicina, para el diagnóstico de imágenes médicas, durante la fase de entrenamiento el sistema recibe imágenes de tejidos que se sabe son cancerígenos y tejidos que se sabe son sanos, así como las respectivas clasificaciones de dichas imágenes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podrá recibir imágenes de tejidos no clasificados y obtener su clasificación sano/no sano con un buen grado de seguridad.

(41)

Capa lógica

Data Mining: Aplicación de las técnicas

 Árboles de decisión: Se utilizan para esquematizar decisiones secuenciales que muestran resultados a partir de un conjunto de datos de entrada.

 Se utiliza para tomar decisiones de negocio como por ejemplo, desarrollar un nuevo producto o consolidar uno ya desarrollado.

(42)

Capa lógica

Data Mining: Aplicación de las técnicas

 Modelos estadísticos: Se utilizan para construir modelos que permitan predecir valores para datos futuros.

 Por ejemplo, modelos de rentabilidad de clientes basados en segmentación. Caracterizan a los clientes y los agrupan de acuerdo a la variable rentabilidad. Luego, frente a un nuevo cliente o potencial cliente, se puede predecir su rentabilidad dadas sus características, identificando el segmento al que pertenece.

(43)

Arquitectura general

Visualización: La capa de visualización es la encargada de desplegar

los análisis sobre los cubos mediantes sus diversos cortes de

información, cruces y filtros;

También despliega los reportes estáticos, ad-hoc, tableros de

control, etc.

Esta capa tiene diversos medios por los que desplegar información:

 En pantalla

 En Web

(44)

Capa de visualización

Visualización: Visualizadores de cubos

(45)

Capa de visualización

(46)

Capa de visualización

Visualización: Reportes ad-hoc

(47)

Capa de visualización

(48)

Capa de visualización

Visualización: Dashboards

(49)

Capa de visualización

(50)

Capa de visualización

Visualización: Dashboards

Referencias

Documento similar

[r]

[r]

SECUNDARIA COMPRENDE LOS

[r]

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

Sin embargo, también existen géneros periodísticos, como el artículo, la columna o el editorial, en los que no solo se informa, sino también (y sobre todo) se opina y se

Estos planes de recolo- cación deben garantizar a las personas despedi- das un servicio continuado durante un periodo mínimo de seis meses que incluya medidas de formación