HDInsight. Big Data, al estilo Microsoft

(1)

HDInsight

Big Data, al estilo Microsoft

(2)

• SQL/BI Team Lead

[email protected] http://geeks.ms/blogs/palvarez @PabloDoval

PABLO DOVAL

(3)

Big Data

(4)

Categoría Metrica

Mayor base de datos 100 TB

Tabla mas grande 1.5 trillones de filas

Mayor conjunto de datos en una sola aplicación 92 PB Mayor número de transacciones/seg. (en 1 servidor) 130,000 Subsistema de E/S más rápido (SQLIO: lecturas en serie

de 64k) 18 GB/s.

Menor latencia en cubo Latencia en ms.

Carga de 1TB de datos 30 minutos

Mayor cubo MOLAP 24 TB

ALGUNAS ESTADÍSTICAS DE SQL SERVER

(5)

Fast Track

(6)

ARQUITECTURA DE REFERENCIA

•

Diseño Hardware:

• Especificación concreta de servidores, almacenamiento y red.

• Recursos Balanceados y Equilibrados

• Servidores y Almacenamiento de última generación

•

(7)

PDW

(8)

• RDBMS distribuido, paralelo, “Shared-nothing”

• Particionado de consultas y datos

• Proporciona una vista única de un cluster de SQL Servers

• Appliance

• Software + hardware

• HP, Dell, NEC

• Optimizado para DW

• Bulk loads (1.2 – 2.0 TB/hora)

• Scans (700 TB en 3 horas)

• Escala de 0 Terabytes al rango de petabytes

PARALELL DATA WAREHOUSE

(9)

ARQUITECTURA (I)

Computación

Dual Infiniband

Nodos de Control (Activo / Pasivo)

Nodo de Reserva

Dual Fiber Channel

SQL

SQL SQL

SQL

SQL SQL SQL

Drivers Cliente (ODBC, OLE- DB, ADO.NET)

Monitorización

Interfaz ETL

Solución de Backup

(10)

ARQUITECTURA (II)

Compute Nodes Compute Nodes

Nodo de Computación Query

Tool MS BI

(AS, RS)

Nodo de Control

3^rd Party Tools DWSQL

Landing Zone Internet

Explorer

SQL Server

Authentication DW DW

Configuration DW

Schema TempDB

SQL Server

User Data

Data Movement Service

Data Movement

Service

Data Movement Service PDW Engine

IIS

Admin Console

Data Access

(OLEDB, ODBC, ADO.NET, JDBC)

(11)

SISTEMA TRADICIONAL

(12)

RESUMEN

Hadoop NO es lo mismo que Big Data

Big Data es: una solución para almacenar y procesar Datos NO estructurados Y Datos estructurados

conjuntamente Big Data

• NO es una Base de Datos ENORME

• NO es un Data

Warehouse ENORME

(13)

Hadoop

(14)

Open Source data management with scale-out storage & processing

APACHE HADOOP

MapReduce

• Divide las tareas entre procesadores

‘cercanos’ a los datos

• Compone los resultados

HDFS

• Almacenamiento distribuido

• Auto-reparable

• Redundante

• Nodo maestro

(NameNode)

(15)

• Escalable

– Cantidades masivas de datos (Pb)

– Escalado (casi) lineal Almacenamiento Redundante – Failover entre nodos y racks

• Flexible

– Cualquier tipo de datos, en cualquier formato – El esquema se aplica en lectura

• Económico

– Empleo de hardware no especifico

CARACTERÍSTICAS

(16)

ECOSISTEMA HADOOP

Almacenamiento Distribuido (HDFS)

Procesado Distribuido (Map Reduce)

(17)

RDBMS vs HADOOP

(18)

HDFS

(19)

• Sistema de Ficheros distribuido

• Construido sobre Hardware no específico – Ficheros replicados para soportar fallos – Deteccion y Recuperación automática

• Optimizado para procesos por lotes (batch)

– Lista de úbicaciones expuesta para minimizar trafico – Proporciona un ancho de banda agregado muy

elevado

• Funciona en multiples OS (FS lógico)

HDFS

(20)

ARQUITECTURA HDFS

Name Node

Secondary Name Node NameSpace

Block Management

Data Node Data Node Data Node Data Node

(21)

• Systema de Ficheros Lógico

• Metadatos

– Organización en ficheros y directorios – Permisos POSIX

• Ficheros

– Divididos en bloques de tamaño uniforme (64 MB por defecto)

– Distribuidos a lo largo de todo el clúster

• Consciente de rack

ORGANIZACIÓN DE LOS DATOS

(22)

Tres componentes principales:

• Name Node:

– Gestiona los Data Nodes

– Guarda metadatos para todos los ficheros y bloques

• Data Nodes:

– Almacenan los bloques de datos

– Se distribuyen por la topología de racks

• Clientes:

– Hablan directamente con el Name Node, y después con los Data Nodes necesarios.

CLUSTER HDFS

(23)

ACCESO A LOS FICHEROS

NameSpace Block Management

Data Node

Name Node JVM

Distributed FS Client Code

FS Data Output Stream

Pig Hive HBase 1

2 3 4

5 6

(24)

HDFS Demos

(25)

• Generalmente se hacia por lotes

– Automatizado como Jobs de CRON

• No se necesita definir el schema a la hora de escribir los datos

MOVIENDO DATOS DENTRO DEL CLUSTER

(26)

• SSIS

• WebHDFS

• FlumeNG

• Sqoop

OTROS MECANISMOS

(27)

MapReduce

(28)

• Un framework

• Procesado y Analisis de ‘big data’

– Pensado para grandes conjuntos de datos

• Computacion de datos locales

• Procesado paralelo

• Gestiona automáticamente los fallos

• Java

¿QUE ES MAP REDUCE?

(29)

HBase

ARQUITECTURA DE MAPREDUCE

Input Format Node

HDFS Map Partitioner

Node

Sort Reduce Output Format MapReduce

(30)

MAPREDUCE

(31)

.NET

Integration

(32)

• Dos métodos principales:

– Interfaz de Streaming – .NET SDK for Hadoop

HADOOP Y WINDOWS

(33)

STREAMING

(34)

• Se trata de un .jar normal…

SINTAXIS

> Hadoop jar contrib/streaming/hadoop-x.x- streaming.jar

-input inputfile -output outputfile -mapper myScript.py -file myScript.py

-reducer c:/Windows/system32/sort.exe

(35)

• API para HDInsight

– API C# que hace de wrapper sobre la interfaz de streaming

• Otras cosas finas… ;)

– LINQ to Hive

– WebHDFS client – WebHCat cliente

.NET SDK FOR HADOOP

(36)

CONSULTAS

(37)

• Extension de Hadoop para simplificar las consultas sobre los datos

• Dos componentes principales:

– Lenguaje de procesado de datos (Pig Latin) – Compilador y runtime de scripts pig latin

PIG

(38)

• Sub-proyecto de Apache Hadoop para construir Data Warehouse sobre el clúster.

• Permite:

– Definir una estructura tabular sobre los datos – Consultar estos datos mediante HiveQL

HIVE

(39)

• … es un RDBMS

– Usa una BD para los metadatos, pero los datos reales se almacenan en HDFS

• … está diseñado para sistemas OLTP

– Olvidémonos de consultas en tiempo real – Olvidémonos de actualización de filas

HIVE NO…

(40)

MICROSOFT

Y HADOOP

(41)

BIG DATA CON MICROSOFT

(42)

CASO DE ÉXITO

(43)

• SCADA Historical Analysis and Reporting Platform

• Plataforma:

– SCADA: Local, Central y Móvil

– Datos Históricos: Gran volumen y gran velocidad – Reporting

– Análisis

SHARP

(44)

DAT DAT DAT

Mongo Export

Hadoop DWH

Source 1

Loader

Origen 2

Loader

Source 2

Loader

Origen

4 Loader

Source

3 Loader

MAGUS

Origen 6

Loader

DAT

Source 7

Loader

DAT

SHARP (ALMACENAMIENTO)

(45)

DWH _Microsoft

Office

Reporting Services

OLAP

Tabular

OLAP

Tabular

Power View

Power Pivot

Cloud?

StreamInsight

Events

Production Centers Central

SHARP (ANÁLISIS Y REPORTING)

(46)

APROXIMACIÓN

Prueba de Concepto

Ecosistema Microsoft Infrastructura

On-Premise

(47)

PowerPivot

Power View

HERRAMIENTAS

(48)

IMPLEMENTACIÓN

DWH

Hadoop

HDFS

HIVE

ReducMap e

SSIS Load Service

Azure Storage

SSRS PowerView

(49)

UN VISTAZO…

(50)

DWH _Microsoft

Office

Reporting Services

OLAP

Tabular

OLAP

Tabular

Power View

Power Pivot

Cloud

StreamInsight

Events

CEP

(51)

StreamInsight

Events

CEP

(52)

LO QUE ESTA POR LLEGAR…

(53)

MEJORAS A HIVE: 100X (STINGER)

(54)

MEJORAS A HIVE: TEZ

(55)

VARIAS GRANULARIDADES: SQL Y HADOOP

Export

(56)

• Recordando Sqoop:

VARIAS GRANULARIDADES: SQL Y HADOOP

(57)

• Sqoop with PDW…

VARIAS GRANULARIDADES: SQL Y HADOOP

Sqoop Map/

Reduce Job

SQL Server

SQL Server SQL Server

…

SQL Server

(58)

VARIAS GRANULARIDADES: SQL Y HADOOP

SQL Server

…

SQL Server

Hadoop Cluster

Sqoop

(59)

POLYBASE

SQL HDFS

SQL Server

T-SQL Queries

(60)

Improv. to HigHer Resolution Data

SQL Server

…

SQL Server

Hadoop Cluster

(61)

Polybase

(62)

Q & A

(63)