Madrid Python Meetup PYTHON Y FLINK

(1)

(2)

(3)

¿QUIÉNES

SOMOS?

(4)

Madrid Python Meetup 2016/03/10 Página 4

UN GRUPO TECNOLÓGICO

GLOBAL

Grupo multinacional tecnológico Fundado en

1984

Capital privado Sede principal en España (Madrid) Oficinas en 10 países Más de 1.100 empleados Origen vinculado al sector espacial y defensa

Aeronáutica, Espacio, Defensa, Seguridad, Sanidad, Transporte, Banca y finanzas, y Tecnologías de la

(5)

INTRODUCCIÓ

(6)

ACLARACIONES

INTRODUCCIÓN

Apache Flink no es un

servidor web ni un jefe indio

No vamos a contar palabras

(7)

MADUREZ DEL BIGDATA

Descartar

Almacenar

Procesar

(8)

ARQUITECTURA TÍPICA

¿POR QUÉ APACHE FLINK?

Data

adquisition

Stream Processing

Serving DB

(9)

(10)

(11)

APACHE FLINK

El core de Flink es un motor

de procesamiento de flujos

de datos en streaming.

Proporciona distribución de los

datos, comunicación y tolerancia

a fallos para realizar

computación distribuida con

streams de datos.

Sobre ese core se han

desarollado dos API y varias

(12)

VENTANAS

FLINK: CARACTERÍSTICAS DIFERENCIADORAS

(13)

(A,5) (A,6) (A,5) (A,1)

VENTANAS POR CLAVE

(A,5) (B,2) (A,6) (C,3) (C,7) (A,5) (B,3) (C,8) (B,2) (A,1) (C,9) (B,4)

Ventanas fijas por clave

1s 2s

(B,2) (B,3) (B,2) (B,4)

(C,3) (C,7) (C,8) (C,9)

(A,5) (A,6) (A,5) (A,1)

(B,2) (B,3) (B,2) (B,4)

(C,3) (C,7) (C,8) (C,9)

(A,11)(B,2)(C,3) (A,5)(B,3)(C,15) (A,1)(B,6)(C,9)

(A,11)(B,5) (C,10) (A,6) (C,17) (B,6)

Ventanas por número de elementos

stream.keyBy(0).timeWindow (Time.seconds(1)).sum(1)

(14)

TRIGGERS Y EVICTORS

DATASTREAM API

5 2 9 9 7 0 3 8 2 A 9 4

20

18 Pueden cancelar el procesado de los

elementos de una ventana

Permiten adelantar el procesado de una

ventana

5 2 9 9 7 -1 3 8 2 1 9 4

25

18

16 Podemos controlar los elementos que

llegan de las ventanas antes de

evaluarlos

Triggers

Evictors

(15)

EL TIEMPO ES IMPORTANTE

¿Qué tiempo utilizar para construir las ventanas?

El momento en el que se

generó el evento

El momento en que se

recibe el evento

El momento en que se

procesa el evento

(16)

RENDIMIENTO

COMPARATIVA

• Lo deseable es mantener un alto caudal con una latencia baja

• Flink permite ajustar los tamaños de los buffers internos para

(17)

FUNCIONALIDADES

Streaming

“true”

mini batches

“true”

API

low-level

high-level

Fault tolerance

tuple-level ACKs

RDD-based (lineage) coarse checkpointing

State

not built-in

external

internal

Exactly once

at least once

exactly once

Windowing

not built-in

restricted

flexible

Latency

low

medium

low

(18)

EXPER

IENCIA

CON

(19)

SEGÚN LA DOCUMENTACIÓN

La mayoría de las API no están

disponibles.

¡¡No está disponible la API

para Streams!!

El API para procesado en batch

tiene todas las operaciones

(20)

PRUEBA BÁSICA

EXPERIENCIA CON PYTHON

class Adder(GroupReduceFunction):

def reduce(self, iterator, collector): count, event = iterator.next()

count += sum([x[0] for x in iterator]) collector.collect((event, count)) if __name__ == "__main__": output_file = 'out.txt' env = get_environment() data = env.read_csv("/home/jordi/Development/python-flink/final-dataset.csv",\

(INT, STRING, STRING, STRING, STRING, STRING, STRING, STRING, BOOL, BOOL, INT, INT, INT, INT, STRING, INT, INT, STRING, STRING, FLOAT, FLOAT, STRING))

data \

.map(lambda x: (1, x[5])) \ .group_by(1) \

.reduce_group(Adder()) \

.map(lambda x: 'Event: %s. Freq: %s' % (x[0],x[1]))\ .write_text(output_file,write_mode=WriteMode.OVERWRITE)

env.execute(local=True)

El rendimiento es más bajo que el

mismo programa en scala.

(21)

POCA ACIVIDAD

El último commit de la parte de Python fue hace varios meses:

(22)

(23)

ww

w

.gm

v.

GRACIAS

(24)

BACKU

P

SLIDES

(25)

TERASORT

(26)

TERASORT

PERFORMANCE

(27)

STREAMING - YAHOO

(28)

STREAMING - YAHOO

PERFORMANCE

(29)

(30)

CONSTRUCCIÓN DE VENTANAS

VENTANAS

(31)