• No se han encontrado resultados

Mitos y Realidades del Big Data -Introducción al Big Data-

N/A
N/A
Protected

Academic year: 2021

Share "Mitos y Realidades del Big Data -Introducción al Big Data-"

Copied!
30
0
0

Texto completo

(1)

Jornada:

“Mitos y Realidades del Big Data”

-Introducción al Big Data-

Urko Zurutuza

Dpto. Electrónica e Informática Mondragon Goi Eskola Politeknikoa JMA

(2)

Agenda

•  Introducción al Big Data (Urko Zurutuza)

•  Caso Práctico 1: (Adolfo Cortés)

– Big Data para eficiencia energética en PYMEs

•  Caso Práctico 2 (Mario Íñiguez/Pedro )

– Big Data para prever modelos de fuga de clientes

– Big Data para eficiencia en hornos y procesos industriales en

(3)

Índice

1.  Introducción

2.  Instalo y uso una BBDD NoSQL. ¿Hago Big Data?

3.  Tengo una plataforma basada en Hadoop instalada en mi

equipo, ¿Tengo Big Data?

4.  Conozco y aplico técnicas de Machine Learning y Data Mining

en la empresa. ¿Soy Big Data?

(4)
(5)

Data

(6)

Big Data

“Big Data” hace referencia al conjunto de información que es demasiado compleja como para ser procesada mediante

TI tradicionales de manera aceptable

–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications, 19(2):171–209, 2014.

(7)

Big Data

“Big Data hace referencia al conjunto de información que

es demasiado compleja como para ser procesada mediante

TI tradicionales de manera aceptable

–Min Chen, Shiwen Mao, and Yunhao Liu. Big Data: A Survey. Mobile Networks and Applications, 19(2):171–209, 2014.

(8)

Big Data

V

elocity

ariety

olume

(9)

Instalo y uso una BBDD NoSQL. ¿Hago Big Data?

(10)

NoSQL (Not Only SQL)

•  Base de Datos de nueva generación que en su mayoría

aborda algunas de las siguientes características:

– no relacional,

– distribuida,

– open-source, y

– horizontalmente escalable

(11)

NoSQL (Not Only SQL) - Tipos

Tipo Descripción Ejemplo

Clave-Valor Cada elemento tiene una clave y su valor asociado. emcached

Familias de Columnas

Para consultas sobre grandes conjuntos de datos. Enfoque en columnas no en filas

Documentos Empareja una clave con una estructura de datos o documento. Grafos Guarda nodos y sus relaciones. RRSS, estructuras de redes,…

(12)

Instalo y uso una BBDD NoSQL. ¿Hago Big Data?

(13)

Tengo una plataforma basada en Hadoop instalada en mi equipo, ¿Tengo Big Data?

(14)

Hadoop

•  Sistema que permite una computación – Fiable,

– Escalable, y

– Distribuida

•  Un Framework que permite el procesamiento distribuido

de grandes conjuntos de datos sobre clusters de ordenadores.

(15)

Ecosistema Hadoop (simplificado)

Apache Pig: Scripting

Almacenamiento redundante y fiable

YARN Gestiona recursos del Cluster

Procesamiento Distribuido de datos Zookeeper: Coordina la distribución Data Warehouse Machine Learning Colector de datos Conector BBDDR-HDFS

(16)

Map-Reduce , 4 , 2 , 4 , 3 , 4 , 2 , 4 , 3

Split Map Shuf&fle

Sort Reduce

Master

assigns

(17)

Tengo una plataforma basada en Hadoop instalada en mi equipo, ¿Tengo Big Data?

(18)

Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?

(19)

Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?

•  El fin del Big Data es extraer valor de tantos datos

•  Análisis de Datos (Big Data Analytics)

– Recomendación basada en el comportamiento de usuarios

– Agrupación de documentos de texto parecidos (por ejemplo)

(20)

Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?

•  In-Memory Analytics vs. In-Hadoop Analytics •  El fondo es el mismo, pero ahora:

–  Distribuido

–  Escalable

•  Herramientas

–  R

–  Spark (Mllib)

(21)

Conozco y aplico técnicas de Machine Learning y Data Mining en la empresa. ¿Soy Big Data?

(22)

Entonces, cómo hago, tengo y soy Big Data? 1.  Objetivos: ¿Qué valor añadido quiero obtener?

2.  Selecciona la infraestructura: en la empresa, o en la

nube (IaaS, PaaS, SaaS) 3.  Fórmate/contrata expertos

4.  Une las piezas (requisitos técnicos)

5.  Realiza implementaciones ágiles e iterativas

(23)

Objetivos: ¿Qué valor añadido quiero obtener?

•  Alinea la necesidad de Big Data con los objetivos de

negocio

•  Implementar Big Data es decisión de negocio, no de TI

(24)

Selecciona la infraestructura •  En casa?

– Hardware (mínimo): 2*6core CPU, 24-64GB RAM, 1-2TB HDD

– Distribuciones Hadoop: Cloudera, MapR, Hortonworks

•  En la nube?

– IaaS (Amazon Elastic Compute Cloud, Azure,…)

– PaaS (Amazon Elastic MapReduce, Azure HDInsight,…)

(25)

Fórmate •  Administración del cluster

•  NoSQL

•  Desarrollo (Java, Python, R, …)

•  Machine Learning / Data Mining

(26)

Une las piezas •  ¿Qué preguntas debo responder?

•  ¿Cómo recojo los datos?

•  ¿Cómo los almaceno?

•  ¿Cómo los analizo?

(27)
(28)

Empieza con objetivos simples e integra los resultados

•  Según se van obteniendo pequeños resultados,

aparecen nuevas preguntas a responder.

•  Integrar resultados con el Sistema de Producción/

(29)

Conclusiones •  Objetivos, estrategia, ROI

•  Datos: ¿Estamos preparados?

•  Infraestructura Local o en la Nube?

•  Big Data está relacionado con:

Análisis de Datos = Data Science

(30)

Eskerrik asko

www.mondragon.edu Urko Zurutuza Mondragon Unibertsitatea [email protected] https://es.linkedin.com/in/uzurutuza/ @urkovain

Referencias

Documento similar

Análisis de las características, herramientas, tecnologías y estándares relacionados con Big Data. Sectores que implementan en la actualidad soluciones Big Data en sus

Linked data, enterprise data, data models, big data streams, neural networks, data infrastructures, deep learning, data mining, web of data, signal processing, smart cities,

La identificación de relaciones que, a causa de la multitud de circunstancias que acompañan a la acción educativa, no se perciben a simple vista es el argumento

En el siguiente apartado y posteriores incorporamos el sector turístico como objetivo de la gestión del Big Data, el turismo es una rama principal en la economía de nuestro país y

Apache Hadoop es actualmente la herramienta libre más utilizada para el análisis de Big Data, si bien también existen alternativas diseñadas para problemas específicos y, por

Como hemos explicado en la secci´ on previa de SVR muchos problemas del mundo real no son de clasificaci´ on sino de regresi´ on y por tanto es importante obtener algoritmos que

To analyze the available data quality models in the context of Big Data applications and adapt a quality model from the existing ones which can be applied to specific Big

The k Nearest Neighbors (kNN) [32] algorithm is recognized as one of the top ten most influential algorithms in data mining because of its effectiveness on classification and