• No se han encontrado resultados

Big Data. Pilar Sirvent Correa IBM Analytics, Arquitecto de Soluciones

N/A
N/A
Protected

Academic year: 2021

Share "Big Data. Pilar Sirvent Correa IBM Analytics, Arquitecto de Soluciones"

Copied!
22
0
0

Texto completo

(1)

Big Data

Pilar Sirvent Correa

(2)

IBM Disclaimer

Information regarding potential future products is intended to outline our

general product direction and it should not be relied on in making a

purchasing decision. The information mentioned regarding potential

future products is not a commitment, promise, or legal obligation to

deliver any material, code or functionality. Information about potential

future products may not be incorporated into any contract. The

development, release, and timing of any future features or functionality

described for our products remains at our sole discretion.

(3)

Extraer “insight” de un alto volumen, varidad y velocidad de datos de

manera eficiente en tiempo y coste.

¿Qué es Big Data? Definiciones

Manejar diversos tipos de

datos y de diferentes

estructuras.

Analizar datos que llegan a

alta velocidad.

Pasar de Terabytes a

Zettabytes

Variedad:

Velocidad:

Volumen:

(4)
(5)
(6)
(7)
(8)
(9)
(10)

El Análisis de Datos imprescindible

IT

Prepara los datos

para responder

Usuarios de

Negocio

Qué quiere

preguntar

Informes de ventas

mensuales

Análisis de beneficios

Encuesta a clientes

Primera Aproximación

Repetible

(11)

La union hace la fuerza

IT

Prepara datos para

potenciar el

descubrimiento

Negocio

Explora qué preguntar

Sentimiento de marca

Estrategia de Producto

Maximizar utilización de

activos

Nueva Aproximación

Exploratorio

IT

Prepara los datos

para responder

Usuarios de

Negocio

Qué quiere

preguntar

Informes de ventas

mensuales

Análisis de beneficios

Encuesta a clientes

Primera Aproximación

Repetible

(12)

Casos de Uso – Big Data

Reglas de

Negocio

Apli. Móvil

Paquete de

Bienvenida

y Ofertas

Log

Contactos

Logs de todos los

Visitantes

5 últimos años

1

1

Cold Data

3

3

Análisis Predictivo

Explorando y

Descubriendo

a

a

Modelos

Eventos

2

2

Landing

Zone

Open Data

Comentarios

Analítica en Descanso

(At Rest)

Clima

Tráfico

Hora

Analítica en Movimiento

(In Motion)

Modelos

B

B

(13)

Casos de Uso

Cliente o Consumidor

Comportamiento de consumidores o en las redes sociales o

interacciones con la Web.

Perfiles de redes sociales.

Personalización de oferta, Tendencia de compras.

Producto

Comportamiento del producto o servicio en el mercado, reflejado en

las redes sociales, tendencia de ventas, previsiones.

Promociones y estudios de campañas de marketing.

Impacto de un lanzamiento

Otros

Reputación de marca, situación de un establecimiento, modificación

(14)

“Pegas” para las PyMEs

Recolector de Datos poderoso y crecimientos variables

Inversión en la Tecnología

Conocimiento

Leyes y Regulatorios

Bala de Plata

(15)

© 2017 IBM Corporation

IBM big data • IBM big data • IBM big data

IBM big data • IBM big data • IBM big data

IB

M

b

ig

d

at

a

I

B

M

b

ig

d

at

a

IB

M

b

ig

d

ata

IB

M

b

ig

d

ata

THINK

(16)

Pilar Sirvent Correa

[email protected]

(17)

Sistema de Ficheros Hadoop(HDFS)

10110100 10100100 11100111 11100101 00111010 01010010 11001001 01010011 00010100 10111010 11101011 11011011 01010110 10010101 00101010 10101110 01001101 01110100

Logical File

1

2

3

4

Blocks

1

Cluster

1

1

2

2

2

3

3

3

4

4

4

10110100 10100100 11100111 11100101 00111010 01010010 11001001 01010011 00010100 10111010 11101011 11011011 01010110 10010101

1

2

3

Logical File

Splits

1

Cluster

3

2

Map

Map

Reduce

Map

Result

Cómo son procesados: MapReduce  Cierta Analítica en Partición

(18)

Apache Spark – Por qué

HDFS

Read

HDFS

Read

HDFS

Write

HDFS

Write

HDFS

Read

HDFS

Read

HDFS

Write

HDFS

Write

Input

Input

CPU

CPU

Result

Result

Iteration

1

Iteration

1

Memory

Memory

CPU

CPU

Iteration

2

Iteration

2

Memory

Memory

Curiosidades Tecnológicas

(19)

HDFS

Read

HDFS

Read

Input

Input

CPU

CPU

Iteration

1

Iteration

1

Memory

Memory

CPU

CPU

Iteration

2

Iteration

2

Memory

Memory

faster than

network & disk

faster than

network & disk

HDFS

Read

HDFS

Read

HDFS

Write

HDFS

Write

HDFS

Read

HDFS

Read

HDFS

Write

HDFS

Write

Input

Input

CPU

CPU

Result

Result

Iteration

1

Iteration

1

Memory

Memory

CPU

CPU

Iteration

2

Iteration

2

Memory

Memory

Zero

Read/Write

Disk

Bottleneck

Zero

Read/Write

Disk

Bottleneck

Chain Job Output

into New Job

Input

Chain Job

Output

into New Job

Input

Apache Spark – Por qué

(20)

Databricks IBM Hortonworks Cloudera Intel IVU Traffic TechnologiesTencent

0

100

200

300

400

500

600

700

800

900

1000

Top 7 Contributing Companies to Spark 2.0.0

Databricks; 39,92 %

IBM;

21,89 %

Hortonworks; 4,98 %

?; 123;

4,94 %

Cloudera;

4,10 %

Intel; 3,09 %

IVU Traffic

Technologies;

54; 2,17 %

Student; 38;

1,53 %

Tencent; 36;

1,45 %

Self-em-ployed; 29;

1,16 %

NTT Corp;

22; 0,88 %

Netflix; 19;

0,76 %

Facebook;

19; 0,76 %

NTT Data;

18; 0,72 %

#N/A; 18;

0,72 %

Huawei; 18;

0,72 %

Amazon; 17;

0,68 %

Quickmobile;

11; 0,44 %

Ebay; 8;

0,32 %

Recruit

Te-chnologies;

8; 0,32 %

Mesosphere;

8; 0,32 %

Yahoo; 8;

0,32 %

Kixer; 4;

0,16 %

Infoblox; 7;

0,28 %

Hopper; 4;

0,16 %

Apple; 7;

0,28 %

SAP; 5;

0,20 %

Blendle; 5;

0,20 %

Haizi; 4;

0,16 %

MassMutual

Financial

Group; 4;

0,16 %

Microsoft; 4;

0,16 %

UC Berkeley;

3; 0,12 %

Oracle; 4;

0,16 %

ING; 3;

0,12 %

Palantir

Technolo-gies; 3;

0,12 %

Corrections

Corporation

of America;

3; 0,12 %

SnappyData;

3; 0,12 %

Radius

Inte-lligence; 3;

0,12 %

Lightbend; 3;

0,12 %

Intuit; 3;

0,12 %

Coursera; 3;

0,12 %

Japila Spark

Solutions; 3;

0,12 %

Engineering

Ingegneria

In-formatica

Spa; 2;

0,08 %

SeatGeek; 2;

0,08 %

ADP; 2;

0,08 %

Google; 2;

0,08 %

Shopify; 2;

0,08 %

Groupon; 2;

0,08 %

Tata

Consul-tancy

Servi-ces; 2;

0,08 %

Walmart; 2;

0,08 %

VideoAmp; 2;

0,08 %

Cask Data; 2;

0,08 %

Codilime; 2;

0,08 %

Paypal; 2;

0,08 %

Silicon Valley

Data

Scien-ce; 2; 0,08 %

Handy; 2;

0,08 %

Expedia; 2;

0,08 %

Adpilot; 2;

0,08 %

TCS

Innova-tions Lab; 2;

0,08 %

Real Impact

Analytics; 2;

0,08 %

Morgan

Stan-ley; 2;

0,08 %

M2M Suite;

2; 0,08 %

Datameer; 2;

0,08 %

Freelance; 2;

0,08 %

Kemper; 2;

0,08 %

MasterPeace

Solutions; 2;

0,08 %

Booking.com;

1; 0,04 %

Tookitaki; 1;

0,04 %

Fraudmetrix;

1; 0,04 %

1; 0,04 %

Metamarkets;

Milliman; 1;

1; 0,04 %

BlackRock;

0,04 %

Tesla; 1;

0,04 %

0,04 %

Coveo; 1;

KPMG; 1;

0,04 %

0,04 %

AppLift; 1;

Mashin; 1;

0,04 %

0,04 %

Guavus; 1;

WhatRun-sWhere; 1;

0,04 %

MiningLamp;

1; 0,04 %

Soul id Inc;

1; 0,04 %

AgilData; 1;

0,04 %

Taboola; 1;

0,04 %

NetDragon

Bigdata Lab;

1; 0,04 %

Adobe; 1;

0,04 %

DataStax; 1;

0,04 %

The Climate

Corporation;

1; 0,04 %

NTT; 1;

0,04 %

Tresata; 1;

0,04 %

HP; 1;

0,04 %

University of

Illinois; 1;

0,04 %

David Tolpin;

1; 0,04 %

AXA; 1;

0,04 %

Opensco-ring.io; 1;

0,04 %

Worldpay; 1;

0,04 %

OpenSignal;

1; 0,04 %

Knoldus

So-ftware; 1;

0,04 %

deep-sense.io;

1;

0,04 %

State Farm;

1; 0,04 %

Idibon; 1;

0,04 %

Swisscom; 1;

0,04 %

LivePerson;

1; 0,04 %

Dropbox; 1;

0,04 %

Teralytics; 1;

0,04 %

Adara Media;

1; 0,04 %

plista; 1;

0,04 %

iGraal; 1;

0,04 %

Talend; 1;

0,04 %

Tetration

Ana-lytics; 1;

0,04 %

Insight; 1;

0,04 %

Think Big

Analytics; 1;

0,04 %

Catawiki; 1;

0,04 %

Treasure

Data; 1;

0,04 %

Red Hat; 1;

0,04 %

Typesafe; 1;

0,04 %

Run; 1;

0,04 %

UNIFi

So-ftware; 1;

0,04 %

Samsung; 1;

0,04 %

Verisk Heal-

th; 1; 0,04 %

Epicor

So-ftware; 1;

0,04 %

Vizyon Arge

Teknoloji; 1;

0,04 %

Exabeam; 1;

0,04 %

Wandisco; 1;

0,04 %

Seeloz Inc;

1; 0,04 %

Wise

Sys-tems; 1;

0,04 %

ClearStory

Data; 1;

0,04 %

Xiaomi; 1;

0,04 %

AnchorFree;

1; 0,04 %

CrossChx; 1;

0,04 %

Fannie Mae;

1; 0,04 %

Acuitus; 1;

0,04 %

MaxPoint; 1;

0,04 %

Medium.com;

1; 0,04 %

MemSQL; 1;

0,04 %

Contributions to Spark 2.0.0

Objetivo: Ser el contribuyente #1 en el Spark

ecosystem

analytics operating system

(21)

Resumen profesional ponente

21

Añadir

foto

Pilar Sirvent Correa es madrileña y está Licenciada en Informática por la Universidad Politécnica de Madrid. Trabajó en

MAPFRE y Cullinet hasta llegar a IBM. Durante estos 27 años ha pasado por diferentes área de negocio de IBM: Formación,

Servicios Técnicos (GTS) y Servicios de Consultoría (GBS) para recalar en Software Group (SWG) donde vivió la

transformación de IBM pasando a formar parte de la Unidad de Negocio de Analytics como Arquitecto de Cliente.

Empezó impartiendo formación de DB2 en el entorno zOS a Clientes y fue ampliando la gama de productos que manejaba:

DB2 UDB (DB2 LUW), Replicación y Propagación de datos multiplataforma, Federación y Datos Distribuidos. Pronto pasó a

trabajar en el área de Servicios, donde intervino en numerosos proyectos tanto de Datos como de desarrollo de

Aplicaciones, en numerosos clientes de diferentes industrias. Fue uno de los primeros especialistas en desarrollar proyectos de

DB2 LUW, y en su colaboración con SWG formó parte del equipo que consiguió batir a Oracle e Informix en uno de los

primeros benchmark de DB2 LUW, en 1997. Siempre sin abandonar DB2z, instalando uno de los primeros DB2 Data Sharing

en un entorno Sysplex en España en 1998.

Tres grandes proyectos internacionales han marcado su carrera en servicios. En el 2000 lideró el equipo de Arquitectura de

Datos de los Juegos Olímpicos de Sidney en el que trabajó durante dos años formando parte de un equipo internacional.

Cuatro de esos meses los pasó en Sidney, Australia. En 2007, el proyecto de transformación del Banco Turco IsBank, le llevó

a trasladarse siete meses a la ciudad de Estambul, liderando de nuevo la arquitectura de datos y su equipo, dentro de la

arquitectura corporativa. En su última etapa en GBS ejerció de Technical Advisor de la línea de servicio de BAO (Business

Analytics and Optimization) para SPIGIT (ahora SPIGI). Etapa que terminó en 2011 con un periodo de tres meses en Pekín

trabajando con diversos clientes de la Banca China inmersos en sus proyectos de transformación del Core Banking, sentando

las bases de una metodología de transformación, para Banca de Tier 2 especializada para ese país, en colaboración con el

Centro de Competencia de transformación del Core Banking.

Durante todo ese tiempo ha trabajado con diferentes tecnologías necesarias en los proyectos de desarrollo de aplicaciones,

siendo destacable su intervención en varios proyectos de transformación tecnológica. El continuo cambio de las tecnologías y

su especialización en la materia le ha llevado a contemplar la transformación como componente esencial en una buena

estrategia de datos. Pero lo que más le caracteriza es su gran dedicación al mundo del dato, viendo todos los proyectos

desde ese particular punto de vista, convirtiéndose así en un referente de la tecnología de datos.

(22)

Legal Disclaimer

• © IBM Corporation 2017. All Rights Reserved.

• The information contained in this publication is provided for informational purposes only. While efforts were made to verify the completeness and accuracy of the information contained in this publication, it is provided AS IS without warranty of any kind, express or implied. In addition, this information is based on IBM’s current product plans and strategy, which are subject to change by IBM without notice. IBM shall not be responsible for any damages arising out of the use of, or otherwise related to, this publication or any other materials. Nothing contained in this publication is intended to, nor shall have the effect of, creating any warranties or representations from IBM or its suppliers or licensors, or altering the terms and conditions of the applicable license agreement governing the use of IBM software.

• References in this presentation to IBM products, programs, or services do not imply that they will be available in all countries in which IBM operates. Product release dates and/or capabilities referenced in this presentation may change at any time at IBM’s sole discretion based on market opportunities or other factors, and are not intended to be a commitment to future product or feature availability in any way. Nothing contained in these materials is intended to, nor shall have the effect of, stating or implying that any activities undertaken by you will result in any specific sales, revenue growth or other results.

• If the text contains performance statistics or references to benchmarks, insert the following language; otherwise delete:

Performance is based on measurements and projections using standard IBM benchmarks in a controlled environment. The actual throughput or performance that any user will experience will vary depending upon many factors, including considerations such as the amount of multiprogramming in the user's job stream, the I/O configuration, the storage configuration, and the workload processed. Therefore, no assurance can be given that an individual user will achieve results similar to those stated here.

• If the text includes any customer examples, please confirm we have prior written approval from such customer and insert the following language; otherwise delete:

All customer examples described are presented as illustrations of how those customers have used IBM products and the results they may have achieved. Actual environmental costs and performance characteristics may vary by customer.

• Please review text for proper trademark attribution of IBM products. At first use, each product name must be the full name and include appropriate trademark symbols (e.g., IBM Lotus® Sametime® Unyte™). Subsequent references can drop “IBM” but should include the proper branding (e.g., Lotus Sametime Gateway, or WebSphere Application Server). Please refer to http://www.ibm.com/legal/copytrade.shtml for guidance on which trademarks require the ® or ™ symbol. Do not use abbreviations for IBM product names in your presentation. All product names must be used as adjectives rather than nouns. Please list all of the trademarks that you use in your presentation as follows; delete any not included in your presentation. IBM, the IBM logo, Lotus, Lotus Notes, Notes, Domino, Quickr, Sametime, WebSphere, UC2, PartnerWorld and Lotusphere are trademarks of International Business Machines Corporation in the United States, other countries, or both. Unyte is a trademark of WebDialogs, Inc., in the United States, other countries, or both. • If you reference Adobe® in the text, please mark the first use and include the following; otherwise delete:

Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. • If you reference Java™ in the text, please mark the first use and include the following; otherwise delete:

Java and all Java-based trademarks and logos are trademarks or registered trademarks of Oracle and/or its affiliates.

• If you reference Microsoft® and/or Windows® in the text, please mark the first use and include the following, as applicable; otherwise delete: Microsoft and Windows are trademarks of Microsoft Corporation in the United States, other countries, or both.

• If you reference Intel® and/or any of the following Intel products in the text, please mark the first use and include those that you use as follows; otherwise delete:

Intel, Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries.

• If you reference UNIX® in the text, please mark the first use and include the following; otherwise delete: UNIX is a registered trademark of The Open Group in the United States and other countries.

• If you reference Linux® in your presentation, please mark the first use and include the following; otherwise delete:

Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Other company, product, or service names may be trademarks or service marks of others.

• If the text/graphics include screenshots, no actual IBM employee names may be used (even your own), if your screenshots include fictitious company names (e.g., Renovations, Zeta Bank, Acme) please update and insert the following; otherwise delete: All references to [insert fictitious company name] refer to a fictitious company and are used for illustration purposes only.

Referencias

Documento similar

MD simulations in this and previous work has allowed us to propose a relation between the nature of the interactions at the interface and the observed properties of nanofluids:

 The expansionary monetary policy measures have had a negative impact on net interest margins both via the reduction in interest rates and –less powerfully- the flattening of the

1. S., III, 52, 1-3: Examinadas estas cosas por nosotros, sería apropiado a los lugares antes citados tratar lo contado en la historia sobre las Amazonas que había antiguamente

Linked data, enterprise data, data models, big data streams, neural networks, data infrastructures, deep learning, data mining, web of data, signal processing, smart cities,

In the previous sections we have shown how astronomical alignments and solar hierophanies – with a common interest in the solstices − were substantiated in the

To add, delete, edit, or check a Windows NT boot selection, first select Setup (enter a System Password, if required), select Environment Setup, then Manage NT Startup.. Follow the

While Russian nostalgia for the late-socialism of the Brezhnev era began only after the clear-cut rupture of 1991, nostalgia for the 1970s seems to have emerged in Algeria

In order to know the energy behavior of the house taking into account all the elements of the building envelope, as well as windows and doors and the installations, it is necessary