Big Data
Pilar Sirvent Correa
IBM Disclaimer
Information regarding potential future products is intended to outline our
general product direction and it should not be relied on in making a
purchasing decision. The information mentioned regarding potential
future products is not a commitment, promise, or legal obligation to
deliver any material, code or functionality. Information about potential
future products may not be incorporated into any contract. The
development, release, and timing of any future features or functionality
described for our products remains at our sole discretion.
Extraer “insight” de un alto volumen, varidad y velocidad de datos de
manera eficiente en tiempo y coste.
¿Qué es Big Data? Definiciones
Manejar diversos tipos de
datos y de diferentes
estructuras.
Analizar datos que llegan a
alta velocidad.
Pasar de Terabytes a
Zettabytes
Variedad:
Velocidad:
Volumen:
El Análisis de Datos imprescindible
IT
Prepara los datos
para responder
Usuarios de
Negocio
Qué quiere
preguntar
Informes de ventas
mensuales
Análisis de beneficios
Encuesta a clientes
Primera Aproximación
Repetible
La union hace la fuerza
IT
Prepara datos para
potenciar el
descubrimiento
Negocio
Explora qué preguntar
Sentimiento de marca
Estrategia de Producto
Maximizar utilización de
activos
Nueva Aproximación
Exploratorio
IT
Prepara los datos
para responder
Usuarios de
Negocio
Qué quiere
preguntar
Informes de ventas
mensuales
Análisis de beneficios
Encuesta a clientes
Primera Aproximación
Repetible
Casos de Uso – Big Data
Reglas de
Negocio
Apli. Móvil
Paquete de
Bienvenida
y Ofertas
Log
Contactos
Logs de todos los
Visitantes
5 últimos años
1
1
Cold Data
3
3
Análisis PredictivoExplorando y
Descubriendo
a
a
ModelosEventos
2
2
Landing
Zone
Open Data
Comentarios
Analítica en Descanso
(At Rest)
Clima
Tráfico
Hora
Analítica en Movimiento
(In Motion)
Modelos
B
B
Casos de Uso
Cliente o Consumidor
•
Comportamiento de consumidores o en las redes sociales o
interacciones con la Web.
•
Perfiles de redes sociales.
•
Personalización de oferta, Tendencia de compras.
Producto
•
Comportamiento del producto o servicio en el mercado, reflejado en
las redes sociales, tendencia de ventas, previsiones.
•
Promociones y estudios de campañas de marketing.
•
Impacto de un lanzamiento
Otros
•
Reputación de marca, situación de un establecimiento, modificación
“Pegas” para las PyMEs
Recolector de Datos poderoso y crecimientos variables
Inversión en la Tecnología
Conocimiento
Leyes y Regulatorios
Bala de Plata
© 2017 IBM Corporation
IBM big data • IBM big data • IBM big data
IBM big data • IBM big data • IBM big data
IB
M
b
ig
d
at
a
•
I
B
M
b
ig
d
at
a
IB
M
b
ig
d
ata
•
IB
M
b
ig
d
ata
THINK
Pilar Sirvent Correa
[email protected]
Sistema de Ficheros Hadoop(HDFS)
10110100 10100100 11100111 11100101 00111010 01010010 11001001 01010011 00010100 10111010 11101011 11011011 01010110 10010101 00101010 10101110 01001101 01110100Logical File
1
2
3
4
Blocks
1
Cluster
1
1
2
2
2
3
3
3
4
4
4
10110100 10100100 11100111 11100101 00111010 01010010 11001001 01010011 00010100 10111010 11101011 11011011 01010110 100101011
2
3
Logical File
Splits
1
Cluster
3
2
Map
Map
Reduce
Map
Result
Cómo son procesados: MapReduce Cierta Analítica en Partición
Apache Spark – Por qué
HDFS
Read
HDFS
Read
HDFS
Write
HDFS
Write
HDFS
Read
HDFS
Read
HDFS
Write
HDFS
Write
Input
Input
CPU
CPU
Result
Result
Iteration
1
Iteration
1
Memory
Memory
CPU
CPU
Iteration
2
Iteration
2
Memory
Memory
Curiosidades Tecnológicas
HDFS
Read
HDFS
Read
Input
Input
CPU
CPU
Iteration
1
Iteration
1
Memory
Memory
CPU
CPU
Iteration
2
Iteration
2
Memory
Memory
faster than
network & disk
faster than
network & disk
HDFS
Read
HDFS
Read
HDFS
Write
HDFS
Write
HDFS
Read
HDFS
Read
HDFS
Write
HDFS
Write
Input
Input
CPU
CPU
Result
Result
Iteration
1
Iteration
1
Memory
Memory
CPU
CPU
Iteration
2
Iteration
2
Memory
Memory
Zero
Read/Write
Disk
Bottleneck
Zero
Read/Write
Disk
Bottleneck
Chain Job Output
into New Job
Input
Chain Job
Output
into New Job
Input
Apache Spark – Por qué
Databricks IBM Hortonworks Cloudera Intel IVU Traffic TechnologiesTencent
0
100
200
300
400
500
600
700
800
900
1000
Top 7 Contributing Companies to Spark 2.0.0
Databricks; 39,92 %
IBM;
21,89 %
Hortonworks; 4,98 %?; 123;
4,94 %
Cloudera;
4,10 %
Intel; 3,09 %
IVU Traffic
Technologies;
54; 2,17 %
Student; 38;
1,53 %
Tencent; 36;
1,45 %
Self-em-ployed; 29;
1,16 %
NTT Corp;
22; 0,88 %
Netflix; 19;
0,76 %
Facebook;
19; 0,76 %
NTT Data;
18; 0,72 %
#N/A; 18;
0,72 %
Huawei; 18;
0,72 %
Amazon; 17;
0,68 %
Quickmobile;
11; 0,44 %
Ebay; 8;
0,32 %
Recruit
Te-chnologies;
8; 0,32 %
Mesosphere;
8; 0,32 %
Yahoo; 8;
0,32 %
Kixer; 4;
0,16 %
Infoblox; 7;
0,28 %
Hopper; 4;
0,16 %
Apple; 7;
0,28 %
SAP; 5;
0,20 %
Blendle; 5;
0,20 %
Haizi; 4;
0,16 %
MassMutual
Financial
Group; 4;
0,16 %
Microsoft; 4;
0,16 %
UC Berkeley;
3; 0,12 %
Oracle; 4;
0,16 %
ING; 3;
0,12 %
Palantir
Technolo-gies; 3;
0,12 %
Corrections
Corporation
of America;
3; 0,12 %
SnappyData;
3; 0,12 %
Radius
Inte-lligence; 3;
0,12 %
Lightbend; 3;
0,12 %
Intuit; 3;
0,12 %
Coursera; 3;
0,12 %
Japila Spark
Solutions; 3;
0,12 %
Engineering
Ingegneria
In-formatica
Spa; 2;
0,08 %
SeatGeek; 2;
0,08 %
ADP; 2;
0,08 %
Google; 2;
0,08 %
Shopify; 2;
0,08 %
Groupon; 2;
0,08 %
Tata
Consul-tancy
Servi-ces; 2;
0,08 %
Walmart; 2;
0,08 %
VideoAmp; 2;
0,08 %
Cask Data; 2;
0,08 %
Codilime; 2;
0,08 %
Paypal; 2;
0,08 %
Silicon Valley
Data
Scien-ce; 2; 0,08 %
Handy; 2;
0,08 %
Expedia; 2;
0,08 %
Adpilot; 2;
0,08 %
TCS
Innova-tions Lab; 2;
0,08 %
Real Impact
Analytics; 2;
0,08 %
Morgan
Stan-ley; 2;
0,08 %
M2M Suite;
2; 0,08 %
Datameer; 2;
0,08 %
Freelance; 2;
0,08 %
Kemper; 2;
0,08 %
MasterPeace
Solutions; 2;
0,08 %
Booking.com;
1; 0,04 %
Tookitaki; 1;
0,04 %
Fraudmetrix;
1; 0,04 %
1; 0,04 %
Metamarkets;
Milliman; 1;
1; 0,04 %
BlackRock;
0,04 %
Tesla; 1;
0,04 %
0,04 %
Coveo; 1;
KPMG; 1;
0,04 %
0,04 %
AppLift; 1;
Mashin; 1;
0,04 %
0,04 %
Guavus; 1;
WhatRun-sWhere; 1;
0,04 %
MiningLamp;
1; 0,04 %
Soul id Inc;
1; 0,04 %
AgilData; 1;
0,04 %
Taboola; 1;
0,04 %
NetDragon
Bigdata Lab;
1; 0,04 %
Adobe; 1;
0,04 %
DataStax; 1;
0,04 %
The Climate
Corporation;
1; 0,04 %
NTT; 1;
0,04 %
Tresata; 1;
0,04 %
HP; 1;
0,04 %
University of
Illinois; 1;
0,04 %
David Tolpin;
1; 0,04 %
AXA; 1;
0,04 %
Opensco-ring.io; 1;
0,04 %
Worldpay; 1;
0,04 %
OpenSignal;
1; 0,04 %
Knoldus
So-ftware; 1;
0,04 %
deep-sense.io;
1;
0,04 %
State Farm;
1; 0,04 %
Idibon; 1;
0,04 %
Swisscom; 1;
0,04 %
LivePerson;
1; 0,04 %
Dropbox; 1;
0,04 %
Teralytics; 1;
0,04 %
Adara Media;
1; 0,04 %
plista; 1;
0,04 %
iGraal; 1;
0,04 %
Talend; 1;
0,04 %
Tetration
Ana-lytics; 1;
0,04 %
Insight; 1;
0,04 %
Think Big
Analytics; 1;
0,04 %
Catawiki; 1;
0,04 %
Treasure
Data; 1;
0,04 %
Red Hat; 1;
0,04 %
Typesafe; 1;
0,04 %
Run; 1;
0,04 %
UNIFi
So-ftware; 1;
0,04 %
Samsung; 1;
0,04 %
Verisk Heal-
th; 1; 0,04 %
Epicor
So-ftware; 1;
0,04 %
Vizyon Arge
Teknoloji; 1;
0,04 %
Exabeam; 1;
0,04 %
Wandisco; 1;
0,04 %
Seeloz Inc;
1; 0,04 %
Wise
Sys-tems; 1;
0,04 %
ClearStory
Data; 1;
0,04 %
Xiaomi; 1;
0,04 %
AnchorFree;
1; 0,04 %
CrossChx; 1;
0,04 %
Fannie Mae;
1; 0,04 %
Acuitus; 1;
0,04 %
MaxPoint; 1;
0,04 %
Medium.com;
1; 0,04 %
MemSQL; 1;
0,04 %
Contributions to Spark 2.0.0
Objetivo: Ser el contribuyente #1 en el Spark
ecosystem
analytics operating system
Resumen profesional ponente
21
Añadir
foto
Pilar Sirvent Correa es madrileña y está Licenciada en Informática por la Universidad Politécnica de Madrid. Trabajó en
MAPFRE y Cullinet hasta llegar a IBM. Durante estos 27 años ha pasado por diferentes área de negocio de IBM: Formación,
Servicios Técnicos (GTS) y Servicios de Consultoría (GBS) para recalar en Software Group (SWG) donde vivió la
transformación de IBM pasando a formar parte de la Unidad de Negocio de Analytics como Arquitecto de Cliente.
Empezó impartiendo formación de DB2 en el entorno zOS a Clientes y fue ampliando la gama de productos que manejaba:
DB2 UDB (DB2 LUW), Replicación y Propagación de datos multiplataforma, Federación y Datos Distribuidos. Pronto pasó a
trabajar en el área de Servicios, donde intervino en numerosos proyectos tanto de Datos como de desarrollo de
Aplicaciones, en numerosos clientes de diferentes industrias. Fue uno de los primeros especialistas en desarrollar proyectos de
DB2 LUW, y en su colaboración con SWG formó parte del equipo que consiguió batir a Oracle e Informix en uno de los
primeros benchmark de DB2 LUW, en 1997. Siempre sin abandonar DB2z, instalando uno de los primeros DB2 Data Sharing
en un entorno Sysplex en España en 1998.
Tres grandes proyectos internacionales han marcado su carrera en servicios. En el 2000 lideró el equipo de Arquitectura de
Datos de los Juegos Olímpicos de Sidney en el que trabajó durante dos años formando parte de un equipo internacional.
Cuatro de esos meses los pasó en Sidney, Australia. En 2007, el proyecto de transformación del Banco Turco IsBank, le llevó
a trasladarse siete meses a la ciudad de Estambul, liderando de nuevo la arquitectura de datos y su equipo, dentro de la
arquitectura corporativa. En su última etapa en GBS ejerció de Technical Advisor de la línea de servicio de BAO (Business
Analytics and Optimization) para SPIGIT (ahora SPIGI). Etapa que terminó en 2011 con un periodo de tres meses en Pekín
trabajando con diversos clientes de la Banca China inmersos en sus proyectos de transformación del Core Banking, sentando
las bases de una metodología de transformación, para Banca de Tier 2 especializada para ese país, en colaboración con el
Centro de Competencia de transformación del Core Banking.
Durante todo ese tiempo ha trabajado con diferentes tecnologías necesarias en los proyectos de desarrollo de aplicaciones,
siendo destacable su intervención en varios proyectos de transformación tecnológica. El continuo cambio de las tecnologías y
su especialización en la materia le ha llevado a contemplar la transformación como componente esencial en una buena
estrategia de datos. Pero lo que más le caracteriza es su gran dedicación al mundo del dato, viendo todos los proyectos
desde ese particular punto de vista, convirtiéndose así en un referente de la tecnología de datos.
Legal Disclaimer
• © IBM Corporation 2017. All Rights Reserved.
• The information contained in this publication is provided for informational purposes only. While efforts were made to verify the completeness and accuracy of the information contained in this publication, it is provided AS IS without warranty of any kind, express or implied. In addition, this information is based on IBM’s current product plans and strategy, which are subject to change by IBM without notice. IBM shall not be responsible for any damages arising out of the use of, or otherwise related to, this publication or any other materials. Nothing contained in this publication is intended to, nor shall have the effect of, creating any warranties or representations from IBM or its suppliers or licensors, or altering the terms and conditions of the applicable license agreement governing the use of IBM software.
• References in this presentation to IBM products, programs, or services do not imply that they will be available in all countries in which IBM operates. Product release dates and/or capabilities referenced in this presentation may change at any time at IBM’s sole discretion based on market opportunities or other factors, and are not intended to be a commitment to future product or feature availability in any way. Nothing contained in these materials is intended to, nor shall have the effect of, stating or implying that any activities undertaken by you will result in any specific sales, revenue growth or other results.
• If the text contains performance statistics or references to benchmarks, insert the following language; otherwise delete:
Performance is based on measurements and projections using standard IBM benchmarks in a controlled environment. The actual throughput or performance that any user will experience will vary depending upon many factors, including considerations such as the amount of multiprogramming in the user's job stream, the I/O configuration, the storage configuration, and the workload processed. Therefore, no assurance can be given that an individual user will achieve results similar to those stated here.
• If the text includes any customer examples, please confirm we have prior written approval from such customer and insert the following language; otherwise delete:
All customer examples described are presented as illustrations of how those customers have used IBM products and the results they may have achieved. Actual environmental costs and performance characteristics may vary by customer.
• Please review text for proper trademark attribution of IBM products. At first use, each product name must be the full name and include appropriate trademark symbols (e.g., IBM Lotus® Sametime® Unyte™). Subsequent references can drop “IBM” but should include the proper branding (e.g., Lotus Sametime Gateway, or WebSphere Application Server). Please refer to http://www.ibm.com/legal/copytrade.shtml for guidance on which trademarks require the ® or ™ symbol. Do not use abbreviations for IBM product names in your presentation. All product names must be used as adjectives rather than nouns. Please list all of the trademarks that you use in your presentation as follows; delete any not included in your presentation. IBM, the IBM logo, Lotus, Lotus Notes, Notes, Domino, Quickr, Sametime, WebSphere, UC2, PartnerWorld and Lotusphere are trademarks of International Business Machines Corporation in the United States, other countries, or both. Unyte is a trademark of WebDialogs, Inc., in the United States, other countries, or both. • If you reference Adobe® in the text, please mark the first use and include the following; otherwise delete:
Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. • If you reference Java™ in the text, please mark the first use and include the following; otherwise delete:
Java and all Java-based trademarks and logos are trademarks or registered trademarks of Oracle and/or its affiliates.
• If you reference Microsoft® and/or Windows® in the text, please mark the first use and include the following, as applicable; otherwise delete: Microsoft and Windows are trademarks of Microsoft Corporation in the United States, other countries, or both.
• If you reference Intel® and/or any of the following Intel products in the text, please mark the first use and include those that you use as follows; otherwise delete:
Intel, Intel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries.
• If you reference UNIX® in the text, please mark the first use and include the following; otherwise delete: UNIX is a registered trademark of The Open Group in the United States and other countries.
• If you reference Linux® in your presentation, please mark the first use and include the following; otherwise delete:
Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Other company, product, or service names may be trademarks or service marks of others.
• If the text/graphics include screenshots, no actual IBM employee names may be used (even your own), if your screenshots include fictitious company names (e.g., Renovations, Zeta Bank, Acme) please update and insert the following; otherwise delete: All references to [insert fictitious company name] refer to a fictitious company and are used for illustration purposes only.