Sistemas de Información Gerencial. Tema 7: BIG DATA. Ing. Francisco Rodríguez Novoa

(1)

Sistemas de Información Gerencial

Tema 7: BIG DATA

1 Ing. Francisco Rodríguez Novoa

(2)

Índice



Big Data. Big Data Science



¿Por qué Big Data? Google crea el

Modelo de Programación MapReduce



Aplicaciones de BIG DATA

(3)

3

Nuestro mundo gira en torno a los datos

 Ciencia

 Bases de datos de astronomía, genómica,

datos medio-ambientales, datos de transporte, …

 Ciencias Sociales y Humanidades

 Libros escaneados, documentos históricos, datos sociales, …

 Negocio y Comercio

 Ventas de corporaciones, transacciones de mercados, censos, tráfico de aerolíneas, …

 Entretenimiento y Ocio

 Imágenes en internet, películas, ficheros MP3, …

 Medicina

 Datos de pacientes, datos de escaner, radiografías …

 Industria, Energía, …

 Sensores, …

(4)

(5)

15

¿Qué es Big Data?

Las 8 V’s de Big Data

Big

Data

Volumen Velocidad Variedad Veracidad Valor Variabilidad Validez Volatilidad

(6)

No hay una definición estándar

Big data es una colección de datos grande,

complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales

“Big Data” son datos cuyo volumen, diversidad y complejidad

requieren nueva arquitectura, técnicas, algoritmos y análisis

para gestionar y extraer valor y conocimiento oculto en ellos ...

(7)

Big data se refiere a cualquier problema o

característica que represente un reto para

ser procesado con aplicaciones

tradicionales

(8)

¿Quién genera Big Data?

Redes sociales y multimedia

(todos generamos datos)

Dispositivos móviles

(seguimiento de objetos)

Instrumentos científicos

(colección de toda clase de datos)

Redes de sensores

(se miden toda clase de datos)

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar, y descubrir el conocimiento de los datos recopilados de manera oportuna y en una forma escalable

(9)

Data Science combines the traditional scientific method with the ability to explore, learn and gain deep insight for (Big) Data

It is not just about finding patterns in data … it is

mainly about explaining those patterns

(10)

What Happens in an Internet Minute in 2018?

¿Por qué Big Data?

(11)

23  Problema: Escalabilidad de grandes cantidades de

datos

 Ejemplo:

 Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días  Exploración en un clúster de 1000 nodos = 33 minutos  Solución  Divide-Y-Vencerás

¿Por qué Big Data?

Una sola máquina no puede gestionar grandes volúmenes de datos de manera eficiente

(12)

¿Por qué Big Data?

 Problema: Escalabilidad de grandes cantidades de datos  Ejemplo:

 Exploración 100 TB en 1 nodo @ 50 MB/sec = 23

días

 Exploración en un clúster de 1000 nodos = 33

minutos

 Solución  Divide-Y-Vencerás

• ¿Cómo podemos procesar

(13)

25  Escalabilidad de grandes cantidades de datos

 Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días  Exploración en un clúster de 1000 nodos = 33 minutos

Solución  Divide-Y-Vencerás

¿Qué ocurre cuando el tamaño de los datos aumenta

y los requerimientos de tiempo se mantiene?

Hace unos años: Había que aumentar los recursos de

hardware (número de nodos). Esto tiene limitaciones de espacio, costes, …

Google 2004: Paradigma

MapReduce

¿Por qué Big Data?

(14)

 Escalabilidad de grandes cantidades de datos

 Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días  Exploración en un clúster de 1000 nodos = 33 minutos

Solución  Divide-Y-Vencerás

MapReduce

– Modelo de programación de datos paralela

– Concepto simple, elegante, extensible para múltiples aplicaciones

• Creado por Google (2004)

– Procesa 20 PB de datos por día (2004)

• Popularizado por el proyecto de codigo abierto Hadoop

– Usado por Yahoo!, Facebook, Amazon, …

MapReduce

(15)

MapReduce

MapReduce es la aproximación más popular para Big Data

Fragmentación de datos con

Procesamiento Paralelo

(16)

MapReduce

 MapReduce es el entorno más popular para Big Data

 Basado en la estructura Valor-llave.

 Dos operaciones:

1. Función Map : Procesa

bloques de información

2. Función Reduce function:

Fusiona los resultados previous de acuerdo a su llave.

 + Una etapa intermedia de

agrupamiento por llave (Shuffling)

input input input input

map

map map map

(k , v) (k , v)

(k’, v’) (k’, v’) (k’, v’)

Shuffling: group values by keys

(k’, v’)

k’, list(v’) k’, list(v’) k’, list(v’)

reduce reduce reduce

v’’ v’’ v’’

output output output map (k, v) → list (k’, v’) reduce (k’, list(v’)) → v’’

(17)

31

Características



Paralelización automática:

 Dependiendo del tamaño de ENTRADA DE DATOS se crean mutiples tareas MAP

 Dependiendo del número de intermedio <clave, valor> particiones  se pueden crear varias tareas REDUCE



Escalabilidad:

 Funciona sobre cualquier cluster de nodos/procesadores  Puede trabajar desde 2 a 10,000 máquinas



Transparencia programación

 Manejo de los fallos de la máquina

 Gestión de comunicación entre máquina

MapReduce

(18)

MapReduce

Resumiendo:

 Ventaja frente a los modelos distribuidos clásicos: El modelo de programación paralela de datos de MapReduce oculta la

complejidad de la distribución y tolerancia a fallos.  Claves de su filosofía: Es

 escalable: se olvidan los problemas de hardware

 más barato: se ahorran costes en hardware, programación y administración (Commodity computing).

 MapReduce no es adecuado para todos los problemas, pero cuando funciona, puede ahorrar mucho tiempo

(19)

Data

Science

Model

building

Predictive and

descriptive

Analytics

Data

Preprocessing

Big Data Analytics:

Big Data Preprocessing

¡Se requieren datos de calidad para

diseñar modelos de calidad!.

Big

Data

(20)

Inteligencia de Negocios y el Big Data

• Inteligencia de Negocios es un conjunto de procesos, tecnologías y

personas que tienen la capacidad de transformar los datos en información y la información en conocimiento, con el objetivo de

optimizar la toma de decisiones empresariales y facilitar la gestión a través del seguimiento de patrones de conducta y transaccionalidad.

• La BI abarca un amplio rango de tareas que comprenden la

recolección y consolidación de bases de datos centralizadas a

través de los conceptos de ETL y Datawarehouse; la gestión de

herramientas para el aprovechamiento de la información, basadas

en analítica y minería de datos; junto con un conjunto de

herramientas de visualización y reporte, que incluye tecnologías

(21)

Inteligencia de Negocios y el Big Data

21 • Big Data es el aprovechamiento de grandes volúmenes de

información para tomar decisiones empresariales y optimizar procesos de negocio. Es notable que las similitudes conceptuales

con la BI permitan generar alguna confusión. En tal sentido, el Big Data también precisa algunos elementos técnicos de consideración. • La integración de datos de negocio que no hacen parte del

ecosistema de bases de datos de la empresa (el Datawarehouse), como por ejemplo datos de fuentes secundarias, implica que se tengan repositorios de información particulares para la gestión de

Big Data. Muchos de estos datos, trabajados adecuadamente,

pueden llegar a integrarse al datawarehouse. En fases iniciales o en el trabajo con datos cotidiano, estos pueden ser integrados a repositorios especiales, conocidos como Datamarts.

(22)

Inteligencia de Negocios y el Big Data

• Algunas de las distancias puntuales que podrían marcarse

entre estos dos temas están dadas por que el concepto de Big

Data no alude directamente a los procesos o a las personas:

es un concepto centrado en los algoritmos y metodologías

que permiten extraer el conocimiento de los datos

procesados.

• Estos datos, a su vez, pueden provenir de una amplia

variedad de fuentes, y bien pueden ser estructurados, como

se estila tradicionalmente en las bases de datos de negocio, o

no estructurados, lo cual abarca desde datos textuales hasta

(23)

Inteligencia de Negocios y el Big Data

23

• También podemos evidenciar que el componente analítico de

la BI se potencia desde el Big Data, pero que a su vez, una

concepción holística y aplicada del Big Data, demanda de las

cualidades de la BI. En tal sentido, suponer un escenario de

datos más completo, más abierto y con muchas más

capacidades para procesar, integrar, analizar y distribuir

información solo puede ser positivo y no debe ser óbice para

generar diferencias en sus aplicaciones

(24)

Inteligencia de Negocios y el Big Data

• El escenario idóneo es aquel que nos permite tener muchos

más datos, poder integrarlos y maximizar su calidad y

completitud,

definir

metodologías

idóneas

para

su

procesamiento y análisis y asegurarse de que los mismos

lleguen a los decisores con tal calidad que el nivel de

dificultad para su transformación en decisiones y para

llevarlo a la implementación se reduzca a un mínimo. Solo así

llegaremos a asegurar un entorno de datos lo suficientemente

fuerte que permita a la organización ser más resistente no por

sus capacidades financieras o materiales, sino por el

conocimiento y el talento que la misma ostenta.

(25)

Algunas aplicaciones:

La banca es

un ámbito de aplicación importante

(26)

Algunas aplicaciones

(27)

Identificación por el número de compras Identificación por el género Identificación por el poder adquisitivo

Banca: Identificación de personas con

las compras de tarjetas de crédito

(28)

Aplicaciones de Big Data

• En el 2017, Forbes Insights y EY publicaron un informe, basado en una encuesta a 1,518 altos ejecutivos de grandes empresas de todo el mundo. Según dicha encuesta, el 66% de las compañías que apostaron por la introducción de data analytics en su estrategia de negocios logró un aumento de al menos 15% en sus utilidades del 2016.

• No solo ha resultado una herramienta auspiciosa en el éxito de la introducción de productos y servicios al mercado, Big Data también ayuda a anticipar fracasos difíciles de identificar. En ese sentido, el 60% de los encuestados por Forbes Insights y EY señala haber conseguido que sus puntos débiles se hayan fortalecido para hacer frente a los posibles riesgos con los que cuenta toda gran empresa.

(29)

Aplicaciones de Big Data

• Recientemente, se publicó el “Accenture Analytics Big Success

with Big Data”, que incluye una encuesta a más de 1,000

ejecutivos de empresas que operan en siete

industrias

y con

sede en 19 países, que han completado al menos una

implementación de Big Data.

• Este informe reveló que el 92% de los encuestados están

satisfechos con los resultados de negocios impulsados por Big

Data y que el 94% manifiesta que estas implementaciones

satisfacen sus necesidades. Para el 89%, resulta fundamental

en el proceso de transformar su organización en una empresa

digital.

(30)

BIG DATA en Perú

• Banca y finanzas, consumo masivo y retail son las industrias que

han dado los primeros pasos hacia su digitalización. Ya sea por

recursos financieros o por giro de negocio, estos son los

first

movers

más obvios; sin embargo, no serán los únicos en usar

esta disciplina como una herramienta esencial.

• SAS Institute, uno de los principales fabricantes de software de

business inteligence del mundo, menciona el caso de la industria

de la salud: al analizar rápidamente grandes cantidades de

información, estructurada y no estructurada, los proveedores de

atención médica pueden proporcionar diagnósticos que salvan

vidas o opciones de tratamiento casi de inmediato. Estas

aplicaciones se irán extendiendo hacia cada vez más industrias,

sin duda

(31)

Ámbito del conocimiento que engloba las

habilidades asociadas al análisis inteligente de datos, incluyendo Big Data

Científico de datos

(actualmente se menciona la demanda en big data profesionalmente, entendida como el global).

(32)

Comentarios Finales

Big Data es un área emergente y en expansión.

Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años.

(33)

 La paralelización de los algoritmos de aprendizaje

automático junto al particionamiento de datos pueden proporcionar algoritmos de calidad con MapReduce.

 Paticionando datos y aplicando el algoritmo a cada parte.

 Centrando la atención en la fase de combinacion

(reduce). La combinación de modelos es un reto en el diseño de cada algoritmo.

 Data Mining, Machine learning and data preprocessing:

Inmensa colección de algoritmos frente a los pocos algoritmos en big data analytics.

(34)

(35)