• No se han encontrado resultados

Almacenamiento de Datos e Inteligencia de Negocios

N/A
N/A
Protected

Academic year: 2021

Share "Almacenamiento de Datos e Inteligencia de Negocios"

Copied!
46
0
0

Texto completo

(1)
(2)

Almacenamiento de Datos

e Inteligencia de Negocios

(3)

❖ Almacenamiento de Datos

❖ Sistemas de Base de Datos

❖ Arquitectura de Data Warehouse

❖ Data Warehouse y Data Mart

❖ ETL

(4)

Almacenamiento de Datos

• Incluye el diseño, la implementación y el soporte de los datos almacenados, para maximizar su valor a lo largo de todo su ciclo de vida, desde su

creación/adquisición hasta su eliminación.

• Los administradores de bases de datos – DBAs juegan un papel clave en las operaciones de datos y en el almacenamiento

• La función del DBA (Database Administrator - Administrador de Bases de Datos) es la función profesional de datos más establecida y ampliamente adoptada

(5)

Almacenamiento de Datos Actividades fundamentales

A. El soporte de bases de datos:

• Desde la implementación inicial de un entorno de base de datos, hasta la obtención, respaldo y purga de datos

• También incluye asegurar que la base de datos funcione bien

• El monitoreo y el ajuste son fundamentales para el soporte de la base de datos

B. El soporte tecnológico de las bases de datos:

• Incluye la definición de requisitos técnicos (hardware y software)

• La definición de la arquitectura técnica, la instalación y administración de la tecnología

• La resolución de problemas relacionados a la misma

(6)
(7)

❖ Almacenamiento de Datos

❖ Sistemas de Base de Datos

❖ Arquitectura de Data Warehouse

❖ Data Warehouse y Data Mart

❖ ETL

(8)

Sistemas de Bases de Datos

• Una base de datos es el conjunto de objetos (tablas, índices, vistas, relaciones, datos audiovisuales, geográficos, etc.) que surge se almacenan para usarlos posteriormente.

• Se registra y almacena todo tipo de información históricamente relevante de la organización sobre tu cliente. Este almacenamiento permite usar los datos en cualquier momento.

• Es una recolección estructurada (últimamente de manera digital) de registros o datos que se almacena en un sistema informático.

• Con el fin de tener un manejo eficiente de las bases de datos, se incorpora un sistema que permite gestionar la información almacenada. Se le llama Sistema de Gestión de una base de datos - DBMS

(9)

Sistemas de Bases de Datos

• DBMS : Data Base Management System

• Un sistema manejador de bases de datos o DataBase Management System es un software muy específico, orientado al manejo de base de datos, cuya función es servir de interfaz entre la base de datos, el usuario y las distintas aplicaciones utilizadas.

• Maneja los datos de los repositorios para convertirlos en información relevante para la empresa.

• Controla la organización, almacenamiento, recuperación, seguridad e integridad de los datos de los repositorios de base de datos

(10)

Sistemas de Bases de Datos

Fuente: https://www.statista.com/statistics/809750/

worldwide-popularity-ranking-database-management-systems/

(11)

Tipos de Arquitectura de Base de Datos

(12)

Tipos de Arquitectura de Base de Datos

En la nube / virtualizada

• Imagen de máquina virtual

• Base de datos como servicio DaaS (Data as a Service)

• Alojamiento de bases de datos gestionadas en la nube

(13)

Medios de almacenamiento

1. Discos y Áreas de Almacenamiento en Red (SAN / NAS)

• El almacenamiento en disco es un método muy estable para almacenar datos de forma persistente

• Múltiples tipos de disco pueden existir en el mismo sistema

• Los datos se pueden almacenar de acuerdo con los patrones de uso, y los datos menos

utilizados se almacenan en discos de acceso más lento, que suelen ser más baratos que los sistemas de disco de alto rendimiento

• Los arreglos de discos pueden ser recolectados en Áreas de Almacenamiento en Red (SAN)

(14)

Medios de almacenamiento

2. En Memoria

• Las IMDB (In Memory Database – Base de Datos en Memoria) se cargan desde el

almacenamiento permanente a la memoria volátil cuando se enciende el sistema, y todo el procesamiento ocurre dentro de la misma memoria

• Proporciona un tiempo de respuesta más rápido que los sistemas basados en disco

(15)

Medios de almacenamiento

3. Memorias Flash

• Los recientes avances en las tecnologías de almacenamiento han hecho que la memoria flash o SSD (Solid-State Drive – Unidad de Estado Sólido) sean una alternativa atractiva a los discos tradicionales.

• La memoria flash combina la velocidad de acceso del almacenamiento basado en memoria con la persistencia del almacenamiento basado en disco.

(16)

Replicación

• Replicación de datos significa que los mismos datos se almacenan en múltiples dispositivos de almacenamiento

• En algunas situaciones, tener bases de datos duplicadas es útil:

• Un entorno de alta disponibilidad donde separar la carga de trabajo entre bases de datos idénticas en diferentes equipos

• Balanceo de carga

• Réplicas de datos localizados en ubicaciones geográficamente distantes.

(17)

❖ Almacenamiento de Datos

❖ Sistemas de Base de Datos

❖ Arquitectura de Data Warehouse

❖ Data Warehouse y Data Mart

❖ ETL

(18)

Data Warehouse

• Análisis de datos destinado a comprender las actividades y oportunidades de la organización que se utiliza para impulsar el éxito de la organización

• Si una organización hace las preguntas correctas de sus propios datos, puede obtener información sobre sus productos, servicios y clientes que le permitan tomar mejores decisiones sobre cómo cumplir con sus objetivos estratégicos

• Conjunto de tecnologías que soportan este tipo de análisis de datos

• Existe una evolución de las herramientas de soporte para la toma de decisiones,

(19)

Data Warehouse

• Es una combinación de dos componentes principales: Una base de datos de soporte de toma de decisión integrada y el software relacionado que se utiliza para recopilar, limpiar, transformar y almacenar datos desde una variedad de fuentes operacionales y externas.

• Para soportar los requerimientos de datos históricos, analíticos y de BI, un DW también puede incluir Data Marts dependientes, que son copias de un subconjunto de datos del DW.

• En su contexto más amplio, un DW incluye todos los almacenes o extractos de datos utilizados para soportar la generación de datos para los fines de BI.

(20)

Data Warehouse

• Data Warehousing describe los procesos operativos de extracción, limpieza, transformación, control y carga de los datos en un DW.

• El proceso de data warehousing se centra en la habilitación de un contexto empresarial integrado e histórico basado en los datos operacionales mediante el cumplimiento de las reglas de negocio y el mantenimiento adecuado de las relaciones de datos empresariales

• El data warehousing se enfoca en datos estructurados y no estructurados

(21)

Arquitectura del DW / BI

(22)

Arquitectura del DW / BI

1. Los Sistemas Operacionales

• Encargados de registrar todos los registros y transacciones de la empresa

• Son los fuentes o bases de datos origen

• No hay control sobre ellos

• Pueden almacenar data histórica de las transacciones

• Los sistemas origen tiene un objetivo puntual dependiendo del sistema que los alimenta

• OLTP

Base de datos de RRHH

Base de datos de Contabilidad Base de datos de Finanzas

Base de datos de Facturación Base de datos de Ventas

Base de Datos de Proveedores

(23)

Arquitectura del DW / BI

2. ETL

• Extract, Transform, and Load. Extraer, Transformar, y Cargar datos

• Área de trabajo con ejecución de procesos

• Una de los componentes mas importantes de la arquitectura

• A menudo se requiere de mucho esfuerzo

1. Extraer:

• Extraer datos de las fuentes de dato origen y colocarlos en el ambiente ETL,

• Hay que leer los registros necesarios de las bases de datos fuente que contienen información requerida

• Los datos en bruto deben extraerse de una variedad de fuentes

• Se requiere los permisos de seguridad adecuados

(24)

Arquitectura del DW / BI

2. Transformar:

• Limpieza

• Resolución de conflictos

• Combinación de fuentes

• Procesos de reingeniería

• Depuración de duplicidad

• Inconsistencias

• Verificación y estandarización

• Clasificación y “sumarización”

2. ETL

• Extract, Transform, and Load. Extraer, Transformar, y Cargar datos

• Área de trabajo con ejecución de procesos

• Una de los componentes mas importantes de la arquitectura

• A menudo se requiere de mucho esfuerzo

(25)

Arquitectura del DW / BI

3. Cargar:

• Carga de esos datos extraídos y transformados a su nuevo destino

• Carga en el almacén: Data Warehouse / Data Mart

• Se almacenan en modelos / tablas dentro de las base de datos del Data Warehouse / Data Mart

• Total o incremental

2. ETL

• Extract, Transform, and Load. Extraer, Transformar, y Cargar datos

• Área de trabajo con ejecución de procesos

• Una de los componentes mas importantes de la arquitectura

• A menudo se requiere de mucho esfuerzo

(26)

Arquitectura del DW / BI

2. ETL

Fuente: https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/

(27)

Arquitectura del DW / BI

3. Data Warehouse

• Almacén de datos sobre la cual se van a realizar las consultas

• Técnicamente es una base de datos

• La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos

relacionales)

• Mantiene información histórica

• Los usuarios finales y equipo de toma de decisiones realizan los comandos para consultar información

• A menudo se requiere de mucho almacenamiento para soportar el análisis histórico deseado

• Las estructuras de datos están preparadas para atender las consultas de la mejor manera

(28)

Arquitectura del DW / BI

4. Sistemas de Toma de Decisiones

• Aplicaciones / programas de Inteligencia de Negocios

• Herramientas para que los usuarios de negocio accedan de una manera sencilla al DW

• Son utilizadas por la capa de decisiones de la empresa

(29)

❖ Almacenamiento de Datos

❖ Sistemas de Base de Datos

❖ Arquitectura de Data Warehouse

❖ Data Warehouse y Data Mart

❖ ETL

(30)

Data Warehouse y Data Mart

(31)

Fuente: https://blogs.solidq.com/es/business-analytics

Data Warehouse y Data Mart

(32)

1- Almacén Data Mart independiente

• Se construye sin considerar un Data Warehouse

• Es un almacén y de objetivos específicos (área, funcionalidad, información)

• Son mas fáciles de desarrollar

• Se desarrollan más rápido por que el alcance es menos

• A menudo contiene su propia tecnología (islas)

• Considerar estrategia y gobernabilidad si la empresa comienza a desarrollar varios Data Marts en el tiempo

• Requiere menos espacio de almacenamiento (100Gb)

Data Warehouse y Data Mart

(33)

2- Almacén Data Mart dependiente e integrado

• Se construye a partir de la consideración de un Data Warehouse existente

• La estrategia es de arriba hacia abajo: los datos se almacenan en una ubicación central y luego extrae un universo de datos específico para el análisis.

• Va a requerir mayores necesidades de almacenamiento

Data Warehouse y Data Mart

(34)

Fuente: https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse

Data Warehouse y Data Mart

(35)

Fuente: https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse

Data Warehouse y Data Mart

(36)

Desarrolle, en base al proyecto elegido, lo siguiente:

• Arquitectura del Data Warehouse

Tarea

(37)

❖ Almacenamiento de Datos

❖ Sistemas de Base de Datos

❖ Arquitectura de Data Warehouse

❖ Data Warehouse y Data Mart

❖ ETL

(38)

E T L

(39)

E T L

• Esfuerzo que consume la mayor cantidad de tiempo de los proyectos de DW

• Se requiere de mucho esfuerzo y análisis de la información

• Es necesario conocer la información que van a necesitar el equipo de toma de decisiones de la organización (KPIs)

• Muy importante: la calidad de los datos

(40)

E T L

• Necesidades del negocio (usuarios que consumen la información)

• Requerimientos regulatorios

• Calidad de los datos

• Seguridad

• Niveles de integración

• Velocidad con la que el negocio necesita datos “frescos”

• Cantidad de tiempo del almacenamiento de información histórica

(41)

E T L

1. Graficar la arquitectura donde gráficamente se puedan ver el origen y el destino (alto nivel)

2. Elegir una herramienta ETL

3. Definir las estrategias comunes:

Tipo de datos origen (tablas base de datos, texto, Excel, nube)

Revisar la calidad de los datos en el origen

Diseñar sistemas de seguimiento y auditoria

4. Entender el detalle de las tablas

(42)

E T L

5. Desarrollar un documento con las especificaciones ETL 6. Realizar la primera carga

Tablas maestras

Tablas de detalle

5. Diseñar las cargas incrementales

6. ¿Existe información que se necesita en “tiempo real”?

(43)

E T L

Las empresas almacenan los datos en distintos de formatos y repositorios

La baja calidad de los datos es un factor que afecta el desempeño de los sistemas de información en las organizaciones (toma de decisiones)

Según el Modelo de Calidad de los Datos Norma ISO 25012, la calidad de

datos es la condición de un conjunto de información, recogida en una base de datos o un almacén de datos y, entre sus características están, la

exactitud, completitud, integridad, actualización, coherencia, relevancia, accesibilidad y confiabilidad necesarias para que estos datos resulten

útiles en el procesamiento, análisis u otra finalidad que el usuario quiera darles.

(44)

E T L

Qué tan rápido necesitan los usuarios que la información esté actualizada

La respuesta podría cambiar la arquitectura

La respuesta podría cambiar la infraestructura

La respuesta la tienen los usuarios finales

(45)

Desarrollar el esquema de ETL para el caso que se va a presentar en clase indicando las necesidades de TRANSFORMACIÓN

Tarea

(46)

PREGUNTAS

Referencias

Documento similar

[r]

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Como medida de precaución, puesto que talidomida se encuentra en el semen, todos los pacientes varones deben usar preservativos durante el tratamiento, durante la interrupción

En nuestra opinión, las cuentas anuales de la Entidad Pública Empresarial Red.es correspondientes al ejercicio 2010 representan en todos los aspectos significativos la imagen fiel

En nuestra opinión, las cuentas anuales de la Entidad Pública Empresarial Red.es correspondientes al ejercicio 2012 representan en todos los aspectos

La Intervención General de la Administración del Estado, a través de la Oficina Nacional de Auditoría, en uso de las competencias que le atribuye el artículo 168

La Intervención General de la Administración del Estado, a través de la Oficina Nacional de Auditoría, en uso de las competencias que le atribuye el artículo

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de