Control Informático de
Gestión
Tema 5: Sistemas de Apoyo a la Toma de
Decisiones
Índice
Revisión de los sistemas de información en la
empresa
La información y la toma de decisiones
Sistemas transaccionales e informacionales
Sistemas datawarehousing
Introducción
Definición de datawarehouse
Etapas en la construcción de un datawarehouse
Sistema gestor de datos en un datawarehouse
Explotación del datawarehouse
Análisis multidimensional (OLAP)
Herramientas de datamining
Beneficios obtenidos
Tecnología necesaria
Ejemplos de aplicación
Revisión de los SI en la empresa (I)
La información y la toma de decisiones:
Sistemas operacionales o transaccionales:
Dan soporte y automatizan los procesos del
negocio
Captura rápida y eficaz de datos de los distintos
eventos del negocio (transacciones)
Prestan poco apoyo al proceso de toma de
decisiones, que requiere explotación de datos
almacenados
Tener en cuenta la diferencia entre datos e
información
El proceso de toma de decisiones supone cierto
riesgo:
Necesario contar con información exacta y
completa para minimizar el riesgo
Revisión de los SI en la empresa (II)
Sistemas transaccionales e informacionales
:
Sistemas transaccionales:
Surgen con las primeras aplicaciones empresariales de
los equipos informáticos
Realizan de forma automatizada tareas administrativas
repetitivas e intensivas en mano de obra: Gestión de nóminas Facturación a clientes Control de inventarios Contabilidad
Sistemas informacionales:
Utilizan datos almacenados en los sistemas informáticos (capturados y almacenados por el sistema transaccional) También pueden utilizar datos procedentes de fuentes
externas
Sirven para generar información útil para la toma de
Revisión de los SI en la empresa (III)
Sistemas transaccionales e informacionales (cont.):
Los sistemas transaccionales están orientados al
registro de eventos del negocio con todo detalle
Facilitan la realización de operaciones frecuentes
de actualización, inserción, consulta y eliminación
de datos
Hacen especial énfasis en la consistencia de los
datos y su seguridad
Minimizan tiempos de respuesta
Proporcionan información básica para la gestión,
pero prestan poca atención a los datos
acumulados sobre el negocio
Sus usuarios dentro de la empresa tienen unos
perfiles
medios
o
bajos
en
cuanto
a
responsabilidad y capacidad de toma de
decisiones
Revisión de los SI en la empresa (IV)
Sistemas transaccionales e informacionales (cont.):
Los sistemas informacionales están orientados al
análisis de datos acumulados y simulación de
alternativas (soporte a la toma de decisiones)
Están especializados en la consulta y no en la
actualización de datos
Trabajan con grandes cantidades de datos no volátiles
(“historia”, transacciones ya completadas que no se
tienen que actualizar)
Sus usuarios tienen unos perfiles altos en cuanto a su
responsabilidad y capacidad de toma de decisiones
La información que proporcionan se emplea para el
Sistemas de datawarehousing (I)
Introducción:
Los sistemas datawarehousing constituyen
el núcleo de las aplicaciones Business
Intelligence (Inteligencia de Negocio)
Constan de tres elementos principales:
Recogida y gestión de grandes volúmenes de
datos: tecnología de datawarehousing
Análisis de los datos: tecnología OLAP y
herramientas datamining
Sistemas de datawarehousing (II)
Definición de datawarehouse:
Elemento
fundamental
de
un
sistema
informacional de apoyo a la toma de decisiones
Podemos considerarlo como un gran almacén de
datos procedentes de varias fuentes:
Datos de los distintos sistemas transaccionales de
la empresa
Datos de fuentes externas
Los datos que manejan son no volátiles, no se
modifican, es decir, son de “sólo lectura”
Deben
disponer
de
gran
capacidad
de
Sistemas de datawarehousing (III)
Definición de datawarehouse (cont.):
Concepto de “metadato”: información que se
guarda en el sistema sobre los propios datos
Catálogo
Descripción y procedencia de los datos
Transformaciones experimentadas
Periodicidad de actualización
Principio arquitectural fundamental: separación en
dos entornos tecnológicos distintos de los sistemas
transaccionales y los informacionales
Los datos se organizan por temas (clientes,
vendedores, …) y no por funciones (transaccionales)
Se utiliza también el concepto de Data Mart para
hacer referencia a un almacén de menor tamaño (un
área temática o departamento de la empresa)
Sistemas de datawarehousing (IV)
Etapas
en
la
construcción
de
un
datawarehouse:
Captura de los datos de las fuentes seleccionadas:
Se usan herramientas de extracción que
soportan
múltiples
formatos
de
almacenamiento de los datos
Los datos seleccionados se incorporan al
datawarehouse
Tratamiento, conversión y transformación de los
datos:
Detectar y corregir errores:
Eliminar registros duplicados (clientes dados de alta más de una vez)
Detectar y anular valores sin sentido (fechas de alta anteriores al comienzo de la actividad)
Sistemas de datawarehousing (V)
Etapas
en
la
construcción
de
un
datawarehouse (cont.):
Tratamiento, conversión y transformación de los
datos (cont.):
Analizar la consistencia en el uso de los
valores:
Los datos provienen de distintas fuentes que pueden usar distintos formatos de codificación
Será necesario llevar a cabo un proceso de homogeinización:
Codificación del sexo: varón/hembra, hombre/mujer, 1/0, etc.
Utilización de distintas unidades de medida: metros, centímetros, pulgadas, etc.
Formato de las fechas: dd/mm/aaaa, mm/dd/aaaa, etc.
Sistemas de datawarehousing (VI)
Etapas
en
la
construcción
de
un
datawarehouse (cont.):
Tratamiento, conversión y transformación de los
datos (cont.):
Tratamiento de la ausencia de valores:
Asignación de valores por defecto Eliminar campos no significativos:
Eliminar campos que no aportan nada al análisis Reestructurar y añadir nuevos campos:
Enriquecimiento de los datos, recabando, si es posible, más información sobre las entidades objeto de análisis (clientes, proveedores, etc.)
Sistemas de datawarehousing (VII)
Etapas
en
la
construcción
de
un
datawarehouse (cont.):
Tratamiento, conversión y transformación de los
datos (cont.):
Codificar campos para facilitar su tratamiento
estadístico:
Pasar de direcciones a códigos de zonas geográficas Pasar de fechas de nacimiento a intervalos de edades Pasar de atributos booleanos a valores binarios (0 ó
1)
Cálculo de campos derivados:
Cálculo de subtotales y de datos consolidados que reduzcan el nivel de detalle: ventas por región, ventas por producto, etc.
Sistemas de datawarehousing (VIII)
Sistema
gestor
de
datos
en
un
datawarehouse:
En un datawarehouse se pueden usar tres tipos de
sistemas de gestión de bases de datos:
Base de datos relacional tradicional
Base de datos relacional con diseño en estrella
Base de datos multidimensional
Bases de datos relacionales:
Access, SQL Server, Oracle, MySQL, Sybase,
DB2, etc. sirven para construir sobre ellas un
datawarehouse
En un datawarehouse no son válidos los
principios de diseño de las bases de datos
relacionales
Sistemas de datawarehousing (IX)
Sistema gestor de datos en un datawarehouse
(cont.):
Bases de datos relacionales (cont.):
Un sistema relacional esta diseñado para gestionar un
número elevado de transacciones por segundo
En cada transacción se accede a un número de datos
pequeño
Se presta especial atención a la consistencia e integridad
de los datos
Por este motivo se lleva a cabo un proceso de
normalización, que elimina redundancias (atributos no repetidos en tablas distintas)
Debido a la normalización hay que acceder en cada
consulta a muchas tablas, por lo aumenta el tiempo de respuesta
En un datawarehouse se realizan pocas operaciones pero
con muchos datos (no volátiles), por lo que no tiene sentido la normalización
Sistemas de datawarehousing (X)
Sistema gestor de datos en un datawarehouse
(cont.):
Bases de datos relacionales con diseño en estrella:
Esta variante consiste en utilizar estructuras de datos no normalizadas que incorporan redundancias Con esto se consigue agilizar las consultas y operaciones de análisis de datos Bases de datos multidimensionales:
Se almacenan los datos en cubos “multidimensionales”
especialmente diseñados para acelerar las consultas y análisis de la información
Se lleva a cabo un proceso de cálculo de subtotales en la
carga del sistema con varios niveles de agrupamiento
Sistemas de datawarehousing (XI)
Sistema gestor de datos en un datawarehouse
(cont.):
Bases de datos multidimensionales (cont.):
Presentan varios inconvenientes: Importantes limitaciones de escalabilidad: agregar nuevos
datos al sistema conlleva recalcular todos los subtotales y reconstruir toda la estructura de celdas
Espacio de almacenamiento elevado: crecimiento exponencial
si se consideran nuevas dimensiones de análisis
Presentan menores tiempos de consulta que las
relacionales en estrella al tener datos precalculados
Las relacionales, por el contrario, son de menor tamaño y
poseen mejor escalabilidad y mayor flexibilidad en las consultas
Sistemas de datawarehousing (XII)
Explotación del datawarehouse:
Las herramientas de explotación del datawarehouse
facilitan el análisis de los datos almacenados
Con ellas se pueden generar informes y gráficos
útiles para la toma de decisiones
Tres
grandes
grupos
de
herramientas
de
explotación:
Herramientas Queries and Reporting:
Generación de consultas e informes de los sistemas de BD
relacionales
Permiten generar informes predefinidos a partir de campos calculados
Permiten preparar consultas gráficas (técnicas QBE – Query By Example) o mediante lenguaje SQL (Structured Query Language)
Sistemas de datawarehousing (XIII)
Explotación del datawarehouse (cont.):
Tres grandes grupos de herramientas de explotación
(cont.):
Análisis multidimensional (OLAP – On Line Analytical
Processing):
Herramientas para el análisis de datos a través de dimensiones de jerarquías
Las jerarquías son diferentes niveles de agrupamiento dentro
de las dimensiones
Utilizan consultas rápidas predefinidas y subtotales previamente calculados
Herramientas datamining:
Técnicas avanzadas que permiten detectar y modelizar relaciones entre los datos y obtener información no evidente
Ejemplos: patrones de consumo, predicción del
Análisis multidimensional ‐ OLAP (I)
Estas técnicas emplean un modelo multidimensional
constituido por tres componentes:
Dimensiones: grupos conceptuales que permiten
analizar o consolidar los datos (productos, clientes,
zonas geográficas, …)
Medidas o indicadores: valores numéricos que se
guardan en la BD (facturación, unidades vendidas,
…)
Jerarquías de dimensiones: distintos niveles de
agregación dentro de una dimensión (zonas
geográficas: ciudades, provincias, regiones, países,
…)
Las
operaciones
básicas
de
análisis
multidimensional permiten navegar por los datos
del datawarehouse
Análisis multidimensional ‐ OLAP (II)
Algunas operaciones básicas:
Cambiar de dimensión de análisis (drill across)
Permutar dos dimensiones de análisis (swap)
Subir (up) o descender (down) en el nivel de agregación
Profundizar para alcanzar datos de un nivel inferior (drill
down)
Expandir un determinado nivel de información (expand)
Anular la expansión de un nivel de información
(collapse)
Hyperion es una de las empresas líderes en el mercado de
herramientas OLAP, tecnología que creó
y hoy
comercializa a través de su plataforma Business
Intelligence Essbase XTD
Herramientas datamining (I)
Podríamos traducirlo por minería de datos
Son métodos avanzados para explorar y modelizar
relaciones de grandes volúmenes de datos
Permiten obtener información que se encuentra implícita:
patrones de comportamiento de clientes, asociaciones de
productos, etc.
Distintos tipos de herramientas utilizados en los paquetes
datamining:
Herramientas estadísticas:
Cálculo de parámetros estadísticos (medias, varianzas,
correlaciones, etc.)
Técnicas bayesianas Tests de hipótesis
Técnicas de regresión lineal …
Herramientas datamining (II)
Distintos tipos de herramientas utilizados en los
paquetes datamining (cont.):
Herramientas simbólicas:
Árboles de decisión
Reglas
Técnicas de Inteligencia Artificial:
Redes neuronales
Algoritmos genéticos
Entre las aplicaciones comerciales que usan
estas herramientas podemos citar: SPSS, S‐Plus
de MathSoft, Cognos Scenario, etc.
Herramientas datamining (III)
Metodología seguida en un proceso datamining.
Etapas:
Muestreo:
Selección de una muestra de datos
Permite reducir costes del análisis y aumentar
velocidad
Aconsejable para ficheros muy grandes de datos
Exploración:
Determinación de tendencias principales
Rango de las variables clave
Frecuencia de los valores
Correlación entre variables
Herramientas datamining (IV)
Metodología seguida en un proceso datamining.
Etapas (cont.):
Modificación:
Transformación y filtrado de variables para
adecuarse a los requisitos del problema a analizar
Modelización del comportamiento:
Redes neuronales
Árboles de decisión
Análisis estadístico multivariante
Evaluación:
Comprobación de la validez del modelo obtenido
Presentación gráfica de resultados
Herramientas datamining (V)
Aplicaciones típicas de datamining:
Asociación de productos:
Análisis de la cesta de la compra y asociaciones de
productos
Sirven, por ejemplo, para obtener parejas de ventas (en
EEUU, pañales y cerveza)
La información obtenida se usa para hacer catálogos,
organizar los lineales de un supermercado, etc.
Clasificación de clientes:
Identificación del grupo al que pertenece un
determinado cliente
Interesante, por ejemplo, para el análisis de riesgos en
operaciones de crédito
Segmentación
y
agrupamiento
de
clientes
(clustering):
Identificación de grupos con patrones de
comportamiento similares
Beneficios obtenidos
Con los sistemas datawarehousing/datamining
los
directivos pueden obtener información en poco tiempo
Así pueden dedicar más tiempo al análisis de esa
información que a su búsqueda
Con estas herramientas se profundiza en el conocimiento
del comportamiento de los clientes
Al estar la información disponible en función del tiempo,
se pueden detectar tendencias y realizar previsiones de
cara al futuro
Estos sistemas facilitan la toma de decisiones en la
empresa:
Configuración de canales de distribución
Política de precios
Planes de promoción
Tecnología necesaria (I)
Los sistemas datawarehousing/datamining
requieren
equipos de altas prestaciones para manejar grandes
cantidades de datos con rapidez y eficacia
Se suelen emplear servidores multiprocesador con
plataformas fácilmente escalables
Estos servidores se basan en dos tipos de arquitecturas:
SMP (Symmetric Multiprocessing): varios procesadores
comparten un mismo bus de datos y una memoria central
RAM
MPP (Massively Parallel Processing): cada procesador
cuenta con su propia memoria y su bus de datos
independiente
Se requiere gran capacidad de memoria RAM (gigabytes)
y de almacenamiento secundario masivo (arrays de discos
duros de varias decenas de gigabytes)
Tecnología necesaria (II)
En cuanto al software:
Herramientas de extracción y transformación
de datos
Software gestor de datawarehouse
Aplicaciones de análisis de los datos y
datamining
Varios fabricantes ofrecen en el mercado
soluciones Business Intelligence:
SAS
Cognos
Business Objects
Oracle, …
Ejemplos de aplicación (I)
Sector banca:
Mejor segmentación de su cartera de clientes a través
del análisis de productos contratados y operaciones
realizadas
Elaboran perfiles de clientes para optimizar el envío de
mailing con nuevas ofertas de productos y campañas
comerciales
Resultados inmediatos: reducción de costes en los
mailing e incremento de tasas de respuesta
Unión Fenosa:
Realizó un modelo de predicción sobre potencial de
compra del “calor económico” (calefacción mediante
acumuladores de calor y tarifa nocturna)
Se analizaron un conjunto de variables de su BD de
clientes: potencia contratada, consumo anual, renta, …
Obtuvo 250000 clientes potenciales de una BD de 2400000
clientes recortando mucho en la campaña comercial
Ejemplos de aplicación (II)
Telefónica Móviles:
Proyecto Minerva: sistema datawarehousing
para manejar información de facturas y
registro de llamadas de los clientes (destino,
duración y horario)
Analizando estos datos fueron capaces de
diseñar ofertas a medida y lanzar nuevos
servicios (friends and family)