El valor de los datos: oportunidades, implicaciones y ética del fenómeno del Big Data

Texto completo

(1)FACULTAD DE CIENCIAS ECONÓMICAS, E MP R E S A R I A L E S Y T U R I S MO TRABAJO DE FIN DE GRADO. Grado en: Derecho y Administración y Dirección de Empresas (Alcalá). Titulo:. EL VALOR DE LOS DATOS: OPORTUNIDADES, IMPLICACIONES Y ÉTICA DEL FENÓMENO DEL BIG DATA. Realizado por: GUILLERMO CUEVAS RAMOS. Dirigido por:. LUIS FELIPE RIVERA GALICIA. de. de.

(2) FACULTAD DE CIENCIAS ECONÓMICAS, EMPRESARIALES Y TURISMO GRADO EN. Derecho y Administración y Dirección de Empresas (Alcalá). TITULO DEL TRABAJO DE FIN DE GRADO. EL VALOR DE LOS DATOS: OPORTUNIDADES, IMPLICACIONES Y ÉTICA DEL FENÓMENO DEL BIG DATA. Autor: GUILLERMO CUEVAS RAMOS Tutor/es: LUIS FELIPE RIVERA GALICIA Tribunal de Calificación (nombres y firmas): Presidente Vocal 1º Vocal 2º Calificación. Fecha. Profesor calificador (nombre y firma): Profesor. Calificación. Fecha.

(3) Índice 1.. Introducción ................................................................................................................. 5. 2.. Oportunidades que ofrece el uso de los datos.............................................................. 6. 3.. 2.1.. La economía digital .............................................................................................. 6. 2.2.. El uso de los datos para implementar estrategias de marketing digital ................ 9. 2.3.. Modelos de negocio de la economía digital ....................................................... 13. 2.4.. IoT: el Internet de las Cosas y de qué forma afecta a la economía. ................... 16. Técnicas de Procesamiento de datos. ........................................................................ 19 3.1.. Tipos de datos: estructurados, no estructurados y semiestructurados. ............... 19. 3.2.. La minería de datos como técnica de procesamiento de datos. .......................... 20. 3.2.1. Fases del proceso de descubrimiento de conocimiento en bases de datos (KDD) 3.3.. ........................................................................................................................ 21 La estadística como herramienta del procesamiento de datos. ........................... 24. 3.3.1. Los modelos de regresión como técnica predictiva: el modelo de regresión lineal.. ........................................................................................................................ 25. 3.3.2. Utilización de métodos bayesianos para escenarios con incertidumbre. ........ 25 3.4. masivos.. Big Data: la clave del almacenamiento, procesamiento y análisis de datos ............................................................................................................................ 26. 3.4.1. Introducción al Big Data................................................................................. 26 3.4.2. Los rasgos característicos del Big Data: las 5Vs. ........................................... 28 3.4.3. El uso del Big Data en las organizaciones: Retos y oportunidades. ............... 29 3.4.4. La ética dentro del fenómeno Big Data .......................................................... 34 4.. Regularización legal del tratamiento de datos. .......................................................... 35 4.1.. El origen del derecho a la protección de datos: el Convenio 108 del Consejo de. Europa y la Ley Orgánica 5/1992, de 29 de octubre, de regulación del tratamiento automatizado de los datos de carácter personal (LORTAD). ............................................... 35. 1.

(4) 4.2.. El régimen legal actual del derecho a la protección de datos: la Ley Orgánica. 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal (LOPD). ........ 40 4.3.. El paradigma de la protección de datos: el Reglamento 2016/679 del Parlamento. Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos (RGPD). ...................................................................................................................... 46 4.4.. El derecho al olvido............................................................................................ 50. 5.. Conclusiones .............................................................................................................. 52. 6.. Bibliografía ................................................................................................................ 54. 2.

(5) Resumen Los datos son el nuevo petróleo de la era digital. Es por esto por lo que los negocios se están adaptando, implantando técnicas de análisis y procesamiento de cantidades masivas de datos, como el Big Data, con el fin de volverse más competitivos. Todo ello sin perder de vista el marco legal, tanto a nivel nacional como internacional, al que está sujeto el tratamiento de los datos.. Palabras clave: “Datos”; “economía digital”; “e-commerce”; “e-business”; “marketing digital”; “IoT”; “minería de datos”; “estadística aplicada”; “Big Data”; “ética”; “derecho de protección de datos”; “LOPD”; “RGPD”; “derecho al olvido”.. 3.

(6) Abstract Data are the new petroleum in the digital era. This is why the business are adapting, implementing analysis techniques and processing massive amounts of data, as the Big Data, in order to become more competitive. All of it without losing sight of the legal framework, both nationally and internationally, to which data processing is subject.. Keywords: “Data”; “digital economy”; “e-commerce”; “e-business”; “digital marketing”; “IoT”; “data mining”; “applied Statistics”; “Big Data”; “ethics”; “data protection right”; “LOPD”; “RGPD”; “right to oblivion”.. 4.

(7) 1. Introducción Este trabajo trata sobre el efecto que tiene la inclusión de los datos y las nuevas tecnologías de tratamiento, análisis y procesamiento de los mismos en tres grandes esferas: la esfera económica, la esfera tecnológica y la esfera legal. La importancia que están cobrando los datos en el mundo actual a raíz de la revolución tecnológica da lugar a la necesidad de abordar los distintos aspectos a los que afectan éstos desde un punto de vista académico. El trabajo se divide en tres grandes bloques, ya mencionados anteriormente. Un primer bloque, enfocado a los aspectos económicos; un segundo bloque enfocado a los aspectos tecnológicos y un tercer bloque enfocado a los aspectos legales. Para finalizar tenemos un apartado de conclusiones. En el primer bloque, “oportunidades que ofrece el uso de datos”, explicamos la influencia de internet en la economía, de qué manera afecta la economía digital a los distintos sectores de actividad empresarial y la evolución progresiva de los modelos de negocio. También explicamos de qué manera afecta el uso de los datos a disciplinas como el marketing y los beneficios que proporciona la utilización del internet de las cosas en los negocios. En el segundo bloque, “técnicas de procesamiento de datos”, tratamos los diferentes tipos de datos que hay y cuáles son aquellos que proporcionan información útil a las organizaciones, qué es el minado de datos y para qué sirve, cómo se utiliza la estadística en los procesos de análisis de datos y el Big Data, especialmente en qué consiste exactamente y algunos dilemas éticos que plantea. En el tercer bloque, “regulación legal del tratamiento de datos”, hacemos un repaso histórico sobre el reconocimiento del derecho a la protección de datos, y sobre el tratamiento que se realiza actualmente a la protección de datos de carácter personal en España junto con los aspectos que consideramos más relevantes del Reglamento General de Protección de Datos, y, por último, explicamos el llamado “derecho al olvido”.. 5.

(8) 2. Oportunidades que ofrece el uso de los datos. 2.1. La economía digital La economía digital es un término que, a pesar de que parezca nuevo, lleva introduciéndose en la sociedad desde hace más de quince años, de hecho, “uno de los primeros conceptos que podemos encontrar de economía digital se remonta al año 1998 en un informe elaborado por el Departamento de Comercio de Estados Unidos, The Emerging Digital Economy. En el mismo, la define como una nueva dimensión de la economía que se encuentra inmersa en ‘en un espacio inteligente que se compone de información, instrumentos de acceso y procesamiento de la información y capacidades de comunicación’.” (Álamo Cerrillo, 2016) Con el paso del tiempo y la evolución de las tecnologías, el concepto de economía digital se ha ido modificando. Así ha surgido un sector doctrinal que define distintos planteamientos de lo que consideran como economía digital. “Zimmerman y Koerner (2000) consideran la economía digital como una economía basada en la digitalización de la información y en las infraestructuras de las tecnologías de la información y la comunicación. Liebowitz (2002) y Brynolfsson (2003) la definen como una economía basada en las tecnologías digitales, donde se pueden incluir las redes digitales de comunicación, ordenadores, software, así como todas las tecnologías de la información.” (Álamo Cerrillo, 2016) Alejándonos de la década de comienzo de siglo y teniendo en cuenta una visión más real de la proyección de las tecnologías, las definiciones que ofrecen Zimmerman y Koerner, Lierbowitz y Brynolfsson se quedan un poco obsoletas, o, mejor dicho, escasas teniendo en cuenta la información de la que disponemos actualmente y el desarrollo de Internet. Por todo ello, la Organización para la Cooperación y el Desarrollo Económico ha propuesto una definición más actual de la economía digital. “La Organización para la Cooperación y el Desarrollo Económico (2012) considera que la economía digital está compuesta por los mercados basados en el uso de las tecnologías digitales que facilitan el comercio de bienes y servicios a través del comercio electrónico. Si bien distingue entre economía digital y comercio electrónico, pues son conceptos diferentes.” (Álamo Cerrillo, 2016). Más tarde entraremos a explicar el comercio electrónico, o ecommerce, ya que consideramos que se trata de un asunto relevante en cuanto al tema a tratar. Como hemos podido ver, encontrar una definición que sea apropiada para el término de economía digital no es un asunto sencillo, ya que no existe una definición única. Sin embargo, 6.

(9) “podemos considerar que la economía digital tiene cuatro componentes clave: Internet, comercio electrónico, contenido digital y nuevos procesos digitales.” (Álamo Cerrillo, 2016). Ahora bien, todo este planteamiento sobre la economía digital resulta inconsistente sin datos que sustenten su crecimiento, por ello el INE se ha encargado de realizar un estudio del impacto y el crecimiento de la economía digital en las empresas, agrupadas por sectores en el que se demuestra en forma de porcentaje, el impacto que ha tenido la economía digital en las ventas de los distintos grupos de empresas. Gráfico 1.- Encuesta sobre el Uso de Tecnologías de la Información y las Comunicaciones y del Comercio Electrónico en las Empresas Agrupación de actividad. % de empresas que han realizado ventas por comercio electrónico. (Media del período 20162017).. Fuente: Instituto Nacional de Estadística. Como se puede apreciar, el crecimiento de las ventas a través del comercio electrónico en las empresas que se dedican al sector industrial ha crecido irregularmente destacando aquellas que se dedican a la alimentación, las bebidas, el tabaco, el textil, las prendas de vestir, el cuero y calzado, la madera y el corcho, el papel para las artes gráficas y la reproducción de soportes grabados (CNAE 10-18) con un crecimiento en ventas de un 29,27%, mientras que en las que menos han crecido las ventas por comercio electrónico han sido aquéllas que se dedican a la energía y el agua (CNAE 35-39) con un crecimiento por debajo del 6,14%. Ello supone que existen un diferencial en el incremento de las ventas del sector de un 23.13% con respecto a la media del crecimiento de ventas por comercio electrónico que es del 19,50%. Ello indica que el comercio electrónico, y, por consiguiente, la economía digital, se ha asentado en este sector y está comenzando a tener un impacto en el mismo.. 7.

(10) En cuanto al sector de la construcción (CNAE 41-43) podemos apreciar que el crecimiento total de ventas por comercio electrónico que ha tenido está por debajo del 9,20%, concretamente un 3,25%, lo que indica que la presencia de la economía digital no está muy asentada y se prefiere una metodología de comercio más tradicional. Analizando el sector servicios podemos ver que el que el crecimiento total de ventas por comercio electrónico es, de media, más notable. El área más remarcable es el de servicios de alojamiento (CNAE 55) en el que el crecimiento de ventas por comercio electrónico se ha incrementado en un 87,40% a diferencia del área de actividades profesionales, científicas y técnica (excluyendo las veterinarias) (CNAE 69-74) en el que el crecimiento ha sido de un 8,44%. El diferencial entre estas dos áreas es de un 78,96%, mientras que la media del sector es del 24,56% lo que refleja que, a pesar de que los servicios de alojamiento se hayan beneficiado enormemente del comercio digital en cuanto a sus ventas, todavía es necesaria una implementación mayor de la economía digital en este sector. Para finalizar este análisis individualizado, el sector de TIC (261-264, 268, 465, 582, 61, 6201, 6202, 6203, 6209, 631, 951) presenta un incremento de ventas por comercio electrónico de un 21,01%. Seguidamente compararemos la media del crecimiento de ventas por el comercio electrónico del mercado con la misma de cada sector. La media de crecimiento de ventas por comercio electrónico total es un 20,41%. Con ello podemos decir que el sector industrial se encuentra por debajo de la media, si bien no por mucho, con un 19,50%. A pesar de estar ligeramente por debajo de la media podemos decir que está bastante aproximado y esperamos que a medida que pase el tiempo su media se vaya armonizando con respecto a la del mercado. En cuanto al sector de la construcción, se encuentra muy por debajo de la media, únicamente con un 3,25%, de manera que tendrá que adaptarse paulatinamente a las necesidades del mercado o sus ventas percibirán un detrimento con respecto a lo que podrían obtener ya que están desperdiciando una herramienta potencial cuyo uso crece cada año.. 8.

(11) El sector servicios se sitúa ligeramente por encima de la media del mercado, con un 24,56% con respecto al 20,41% de la media del mercado. Esta diferencia porcentual se debe principalmente a la reconversión progresiva del modelo de negocio de los servicios de alojamiento al comercio electrónico y, por consiguiente, a su correspondiente impacto en porcentaje de ventas. El sector TIC es el que más se aproxima a la media del mercado en el porcentaje de ventas a través de comercio electrónico, ya que, como hemos comentado, tiene un 21,01% con respecto al 20,41% de la media del mercado. 2.2. El uso de los datos para implementar estrategias de marketing digital Como bien sabemos, el criterio diferencial del marketing se basa en que éste pretende identificar y satisfacer las necesidades de los clientes y consumidores. Tal y como propone Santesmases Mestre, el “[m]arketing es un modo de concebir y ejecutar la relación de intercambio, con la finalidad de que sea satisfactoria a las partes que intervienen y a la sociedad, mediante el desarrollo, valoración, distribución y promoción, por una de las partes, de los bienes, servicios o ideas que la otra parte necesita.” (Santesmases Mestre, 2007) Y, como no podía ser de otra forma, el marketing se ha beneficiado la revolución tecnológica y de las herramientas que ha traído ésta consigo, ya que gracias a ella los métodos para realizar análisis predictivos, identificar tendencias, perfilar usuarios, enfocar segmentos y nichos de mercado y dirigir la información adecuada a los consumidores y clientes se ha vuelto más sencilla. El marketing ha evolucionado a lo largo del tiempo en cuatro etapas a medida que se iba perfeccionando con el fin de optimizarlo y obtener mejores resultados. Según Jiménez Martín, el marketing actual se dirige “[h]acia la anticipación o predicción de las acciones de un individuo o colectivo con el objetivo de que realice o recomiende la adquisición de un bien o servicio, repita la experiencia y comparta dicha vivienda en el entorno global.” (Jiménez Martín, 2016). 9.

(12) Figura 1.- Del marketing 1.0 al 4.0. Fuente: Jiménez Martín (2016) Como podemos apreciar, Jiménez Martín desglosa el marketing en cuatro etapas en las que tanto el foco, como el objetivo, la fuerza propulsora y la conexión están diferenciadas. En el marketing 1.0 el foco al que se dirigía el marketing era el propio producto, el objetivo era vender y la fuerza propulsora era la revolución industrial. Este estadio del marketing no coincide con lo que realmente es el marketing hoy en día por lo que podríamos llamarlo un marketing primitivo, aunque lo que quiere reflejar la autora es que este estadio refleja un primer concepto del marketing que surge en la revolución industrial. El marketing 2.0 deja de enfocarse en el producto y pasa a enfocarse en el consumidor, buscando cuáles son las necesidades del mismo para satisfacerlas y así conseguir retenerlo. En cuanto a la fuerza impulsora son las tecnologías de la información y el canal o la conexión que utiliza para llegar al consumidor es la información y las personas. Esta concepción del marketing se adecúa más a lo que nosotros conocemos como marketing en sí, teniendo en cuenta que lo que pretende es identificar y satisfacer las necesidades de los consumidores. El marketing 3.0 pasa de enfocarse en el consumidor a enfocarse en los sentimientos y valores que le ofrece el producto o servicio al consumidor. El objetivo es construir un mundo mejor y para ello utiliza el conocimiento como medio de conexión. La fuerza impulsora que motiva la aparición de este tercer estadio del marketing es la nueva era tecnológica.. 10.

(13) Por último, nos encontramos con un cuarto estadio del marketing, el marketing 4.0, en el que, según Jiménez Martín, nos encontramos actualmente. Esta afirmación no podía ser más acertada, ya que en lo que se enfoca el marketing es en la predicción y la anticipación, su objetivo es el de identificar tendencias y el medio de conexión que utiliza para ello es la inteligencia. ¿Cuál ha sido la fuerza impulsora que ha motivado la aparición de este cuarto estadio del marketing? En efecto, el Big Data. El hecho de que los datos hayan cobrado tal importancia se debe a que “nos ayudan a ser objetivos y no hablar basándonos en sensaciones.” (Martínez Polo, 2015) Es más, la utilización de los datos como herramienta objetiva para perfeccionar la toma de decisiones nos permite suprimir el fenómeno HiPPO. “El HiPPO (highest paid person’s opinión) es un concepto felizmente acuñado por Avinash Kaushik para expresar la importancia de los datos. Si en una reunión presentamos opiniones, siempre prevalecerá […] la opinión de la persona más importante de la conversación (a menudo la que más cobra). Si, en cambio, presentamos datos, serán estos datos quienes prevalezcan (en la mayoría de las ocasiones).” (Martínez Polo, 2015) A pesar de que hay una gran variedad de métodos que se utilizan para resolver problemas, en el supuesto del tratamiento de datos suelen predominar dos: el análisis deductivo y el análisis inductivo. Utilizaríamos el análisis deductivo “[s]i partimos de la comprensión de la estrategia de la compañía trasladándola a preguntas sobre el negocio y trabajamos los datos de manera estructurada para obtener las respuestas a estas preguntas” (Martínez Polo, 2015) Por otro lado, utilizaríamos el análisis inductivo “[s]i lo que hacemos es procesar la información en diferentes niveles buscando lo que son y qué contienen los datos”. Una de las grandes empresas tecnológicas de nuestra época, Google, pone a disposición de los profesionales del marketing y los usuarios particulares una gran variedad de herramientas, tanto de pago como gratuitas, para facilitar “la investigación de mercados y la ejecución de acciones destinadas a la atracción de tráfico, la generación de contenidos y el análisis de resultados” (Jiménez Martín, 2016). A pesar de que Google ofrece muchas herramientas, únicamente nos vamos a centrar en dos: Google Analytics y Google AdWords. 11.

(14) Figura 2.- Esquema sobre los posibles usos de Google Analytics.. Fuente: Google Analytics. Google Analytics es una herramienta que permite realizar analítica web ofreciendo información diversa de gran ayuda, como las visitas diarias a una página web, cómo los visitantes han llegado a ella, qué se puede hacer para que los visitantes la sigan visitando y cómo los visitantes utilizan la web, la actividad de las distintas redes sociales y el impacto que tienen en los objetivos de la empresa para poder determinar cuál es la más adecuada, la creación de informes que se sincronicen en tiempo real para medir la actividad que se produce en la web, la duración de las visitas agrupadas por país, los canales del marketing que más influyen en los compradores, etc. Además, Google se ha tomado la molestia de hacer tutoriales para los usuarios no profesionales que desconocen esta herramienta con el fin de que tenga sea de alcance universal. En cuanto a Google AdWords, se trata de una herramienta que permite publicitar aquello que la empresa desee con el detalle de que no se trata de publicidad desmedida y proyectada a bocajarro contra cualquier usuario, sino que se trata de una herramienta que proyecta la publicidad de aquello que la empresa o el usuario particular desee en relación con la búsqueda realizada en el buscador de Google por el potencial cliente, como podemos ver en la figura 3.. 12.

(15) Figura 3.- Ejemplo de uso publicitario de Google AdWords. Fuente: Google Adwords. Además, se trata de una herramienta que se rige por un contrato de resultados, es decir, que la empresa sólo paga por el servicio efectivo que realiza Google, de forma que si los usuarios no consultan el enlace que se ha publicitado la empresa no efectúa ningún pago. 2.3. Modelos de negocio de la economía digital A medida que la economía digital se vaya arraigando en la sociedad irán surgiendo modelos de negocio basados en ella. “Ethiraj, Guler y Singh (2000 19) definen formalmente el término de modelo de negocio como: ‘una configuración única de elementos que abarcan las metas, estrategias, procesos, tecnologías y estructura de la organización, concebidas para crear valor para los clientes y, por ende, competir exitosamente en un mercado particular’”. (López Sánchez, 2002). Por otro lado, “Amit y Zott (2001) [...] consideran que el modelo de negocio se refiere a la creación de valor únicamente, e identifican el concepto de modelo de rentabilidad como la forma en la cual un modelo de negocio permite la generación de rentas. Es decir, el modelo de negocio crea valor y el modelo de rentabilidad se refiere a la apropiación de valor” (López Sánchez, 2002).. 13.

(16) Como podemos ver, el concepto de la economía digital se adecúa perfectamente al término formal que ofrecen Ethiraj, Guler y Singh de modelo de negocio, ya que podemos decir que es un hecho que la economía digital compite exitosamente en el mercado, y, además, también encaja en el matiz que ofrecen Amit y Zott, debido a que la economía digital crea valor, no se apropia de él, porque de otro modo no sería tan exitosa. Es por esto que la economía digital puede considerarse un modelo de negocio por sí misma. Ahora bien, la economía digital ha sufrido una evolución progresiva desde sus inicios hasta la actualidad y así también su modelo de negocio. Por ello, “Hoque (2000: 8-14) propone una evolución de los modelos de negocio en Internet (2): brochureware (escaparate), e-commerce, e-business y e-enterprises” (López Sánchez, 2002) Gráfico 2.- Evolución de los modelos de negocio en Internet. Fuente: Hoque (2000), López Sánchez y Sanduilli (2007) A continuación, comentaremos detalladamente el gráfico 2 haciendo hincapié en los conceptos de los distintos modelos de negocio que en él aparecen, siendo éstos brochureware, e-commerce, e-business y e-enterprise. El brochureware, o escaparate, son, digamos, los primeros pasos en el modelo de negocio de la economía digital. “Las empresas buscan la notoriedad que aporta el hecho de estar presentes en la Red. Además, es un medio de publicidad y aporta información normalmente estática e histórica a quien lo visite. Se trata de obtener presencia y de permitir que los clientes [...] puedan acceder a la marca y obtener información referida a la compañía cuando y desde donde se quiera y todas las veces que se lo desee”. (López Sánchez, 2007) Es, en resumidas 14.

(17) cuentas, una página web de la empresa a través de la cual solo se puede obtener información de esta, sin la posibilidad de efectuar compras a la empresa a través de ella. El e-commerce se concibe como el siguiente nivel del brochureware o, también, como un escalón más en el modelo de negocio de la economía digital. El e-commerce, por tanto, “facilita la compra y venta de bienes y servicios, con independencia el tipo de cliente [...] y sin necesidad de que los clientes formen parte del sistema. Los usuarios pueden conocer mediante diversas herramientas qué productos están disponibles, cuál es su precio, etc. Además, muchas empresas ofrecen asistencia legal y asesoramiento al cliente, tanto técnico como legal, de manera interactiva.” (López Sánchez, 2007). Para simplificar podemos decir que un brochureware pasa a ser e-commerce cuando la página web corporativa permite conocer, además de la información de la compañía, información sobre los productos o servicios con los que trabaja y también la posibilidad de realizar compras de productos a los clientes y que a su vez la compañía se beneficie de las ventas que realice. En cuanto al e-business hay que decir que “supone un paso importante para la creación de valor, la empresa debe integrar perfectamente a los proveedores y clientes a través de la red, la organización debe sufrir un cambio en su estructura organizativa importante para soportar este modelo, la gestión de la cadena de suministro salta las fronteras de la propia organización, buscando la gestión integrada y coordinada con proveedores, clientes, intermediarios o, incluso, fabricantes de productos complementarios”. (López Sánchez, 2007). Algunos ejemplos de empresas que utilizan este modelo de negocio son Dell, la compañía de ordenadores, y Cisco, dedicada a la comercialización, mantenimiento y asesoramiento de equipos de telecomunicaciones. Se trata de un nivel más allá del e-commmerce ya que su estructura organizativa sufre un cambio radical al tener que integrar a los proveedores, clientes e intermediario y no únicamente el hecho de facilitar la compra de los productos que ofrece a través de la página web. Como podemos ver, en cada escalón de estos modelos de negocio vemos más implementada la integración de actividades junto con el uso de las tecnologías, especialmente internet. Cada vez se aproximan más hasta su completa unión, su culminación, la e-enterprise. “[L]a eenterprise, la empresa virtual o electrónica, para Hoque representaría un modelo nuevo de. 15.

(18) negocio, 100% Internet, quizás una evolución el e-business1 o un modelo de empresa totalmente virtual sin necesidad de esa evolución.” (López Sánchez et al., 2007) Actualmente este modelo de negocio, el e-enterprise ya es una realidad que se está implementando lentamente mediante el uso del IoT2 (Internet de las Cosas) y un concepto revolucionario que probablemente de la vuelta al mercado: los smart contracts. 2.4. IoT: el Internet de las Cosas y de qué forma afecta a la economía. El Internet de las Cosas (IoT) es un concepto acuñado en 1999 por Kevin Ashton cuando propuso que los ordenadores necesitaban ir un paso más allá y poder entender correctamente el mundo real. En cuanto a la identificación adecuada de un término para definir el Internet de las Cosas la OCDE nos ofrece dos interpretaciones, a pesar de que recalca que “[n]o es una tarea fácil encontrar una definición del IoT.” (OCDE, 2015). “[E]n sentido estricto, [el IoT] se limita a los objetos con capacidad de comunicarse a través de Internet” (OCDE, 2015). Como podemos ver esta definición es bastante pobre y a la par que demasiado amplia, por lo que nos sigue dejando con dudas sobre qué es realmente el IoT. Sin embargo, la definición que proporciona la OCDE en sentido amplio es más esclarecedora con respecto a qué es realmente el IoT. “[E]l IoT en un sentido amplio […] incluye todos los dispositivos y objetos cuyo estado puede modificarse a través de Internet, con o sin la participación activa de personas. Ello incluye ordenadores, routers, servidores, tabletas y teléfonos, que normalmente se consideran parte del internet tradicional. Sin embargo, estos dispositivos son cruciales para el control, la lectura y el análisis del estado de los dispositivos IoT y suelen ser el ‘corazón y el cerebro’ del sistema.” (OCDE, 2015). La Wikipedia nos ofrece una definición más sencilla, concibiendo el internet de las cosas como “un concepto que se refiere a la interconexión digital de objetos cotidianos con Internet. Alternativamente, Internet de las cosas es la conexión de Internet con más ‘cosas u objetos’ que personas” (Wikipedia).. 1 En la revista aparece una falta ortográfica que he corregido. El término que aparece es “e-busniess” que claramente es un error gramatical. 2 Internet of Things. 16.

(19) Teniendo un conocimiento más amplio de lo que es el IoT podemos desgajar sus componentes y de esta forma obtendremos cuatro elementos principales: “datos masivos, la nube, la comunicación M2M y los sensores. La computación en la nube, en unión con el análisis de datos masivos, permite mejorar las aplicaciones basadas en el aprendizaje automático, dando pie a un nuevo nivel de inteligencia artificial” (OCDE, 2015) En cuanto a la comunicación M2M, se trata de “[d]ispositivos que se comunican activamente mediante redes fijas o inalámbricas, y que no son ordenadores en el sentido clásico y utilizan Internet de una u otra forma. […] Estas aplicaciones sólo son ‘inteligentes’ cuando se combinan con los servicios de computación en la nube, y sistemas de operación e interacción remotas.” (OCDE, 2015) Por último, los sensores son herramientas que “pueden medir múltiples propiedades físicas […]. Los sensores pueden ser considerados ‘el interfaz entre el mundo físico y el mundo de los dispositivos electrónicos, como los ordenadores’.” (OCDE, 2015) Figura 4.- Interrelación entre los elementos del IoT.. Fuente: OCDE (2015) y elaboración propia.. 17.

(20) Como podemos imaginarnos en relación con los conceptos que hemos desarrollado, el IoT engloba un conjunto muy amplio de herramientas que utilizamos cotidianamente, pero la gran pregunta es, ¿cómo afecta el Internet de las Cosas a la economía? En realidad, el IoT afecta a la economía de una forma mucho más profunda de lo que nos podemos imaginar en abstracto, de hecho, el tráfico masivo de datos que se generan a través del IoT supone que se deban emplear métodos de procesamiento adecuados para el tratamiento de datos masivos. En el gráfico 3 podemos ver en qué áreas afecta el IoT en la empresa, y, por consiguiente, a gran escala, en la economía. Gráfico 3.- Mejoras potenciales que proporciona el empleo del IoT en la empresa.. Fuente: Linkedin El empleo del IoT da lugar a una mejora de la innovación del negocio en al menos un 53%, ello es debido a que, gracias al empleo de los datos que proporciona, es mucho más sencillo realizar innovaciones con respecto al sector ya que se obtiene una cantidad de información que se transforma en una ventaja competitiva la cual aumenta, como podemos apreciar, en un 50%. 18.

(21) con respecto al resto de competidores. Del mismo modo, la información que se obtiene con la implementación del IoT permite obtener una reducción significativa en el costo de propiedad, en un 50%, cifra más que notable y un aumento en la optimización de la toma de decisiones, pero no sólo eso, sino también una mejora en la utilización de los activos de la empresa y la capacidad de proporcionar mejores servicios a nuestros clientes y proveedores. Por otro lado, el IoT también supone una mejora en el rendimiento de los procesos de la empresa gracias a la automatización, a la par que una mejora en el tiempo de respuesta del servicio que proporciona, debido en buena medida al aprendizaje autónomo, a la productividad del personal debido a la relación que tiene con la maquinaria de la empresa, ya que si esta goza de aprendizaje autónomo aprenderá de sus errores, o en este caso de sus fallos, lo que permitirá preverlos y reducir al máximo el tiempo de inactividad de la maquinaria. En definitiva, el IoT genera una gran cantidad de datos que, gracias a un procesamiento adecuado de los mismos, nos permitirá obtener información potencialmente relevante, siendo ésta uno de los activos intangibles que más debemos valorar actualmente ya que, como dijo sir Francis Bacon “El conocimiento es poder”3. La obtención de este conocimiento puede suponer un criterio diferenciador fundamental para nuestra empresa y, como hemos mencionado anteriormente, a gran escala, para la economía, dando lugar a diferencias abismales entre aquellos países que fomenten el empleo del IoT frente a los que no. 3. Técnicas de Procesamiento de datos. 3.1. Tipos de datos: estructurados, no estructurados y semiestructurados. Antes de comenzar a tratar las técnicas de procesamiento de datos es necesario matizar que no todos los datos son iguales, existen diferencias significativas entre ellos, dejando de lado las diferencias más obvias sobre si su naturaleza es cualitativa o cuantitativa. En este caso, la diferencia entre éstos radica en su formato y en la complejidad que presentan en cuanto a su procesamiento para obtener información sobre ellos. De esta forma, nos encontramos con tres tipos de datos: los datos estructurados, los datos no estructurados y los datos semiestructurados.. 3. “Scientia potentia est”.. 19.

(22) Los datos estructurados son “[a]quellos que tienen longitud y formato […] y que pueden ser almacenados en tablas (como las bases de datos relacionales). En esta categoría entran los que se compilan en los censos de población, los diferentes tipos de encuestas, los datos de transacciones bancarias, las compras en tiendas online, etc.” (Mibloguel) Este tipo de datos “[s]on archivos de tipo texto que se suelen mostrar en filas y columnas con títulos. Son datos que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos. Lo podríamos ver como si fuese un archivador perfectamente organizado donde todo está identificado, etiquetado y es de fácil acceso.” (Smartworkspaces). A pesar de lo que se pueda pensar, “ la base de datos con información estructurada de una empresa ,ni siquiera contiene la mitad de la información que hay disponible en la empresa lista para ser usada” (Smartworkspaces) Los datos no estructurados “[s]on los que carecen de un formato determinado y no pueden ser almacenados en una tabla. Pueden ser de tipo texto (los que generan los usuarios de foros, redes sociales, documentos de Word), y los de tipo no-texto (cualquier fichero de imagen, audio, vídeo)” (Mibloguel) Estos datos suelen ser “un conglomerado masivo y desorganizado de varios objetos que no tienen valor hasta que se identifican y almacenan de manera organizada. Una vez que se organizan, los elementos que conforman su contenido pueden ser buscados y categorizados (al menos hasta cierto punto) para obtener información.” (Smartworkspaces) En cuanto a los datos semiestructurados, “son los que no pertenecen a bases de datos relacionales ya que no se limitan a campos determinados, aunque poseen organización interna o marcadores que facilita el tratamiento de sus elementos; estaríamos hablando de documentos XML, HTML o los datos almacenados en bases de datos NoSQL.” (Mibloguel) Entender la diferencia entre los tipos de datos es importante porque “[e]l 80 % de la información relevante para un negocio se origina en forma no estructurada, principalmente en formato texto.” (smartworkspaces). 3.2. La minería de datos como técnica de procesamiento de datos. La minería de datos, o Data Mining, es un concepto que surge en la década de los setenta y se consolida en la década de los ochenta.. 20.

(23) La minería de datos “se define […] como el proceso de extraer conocimiento útil y comprensible […] desde grandes cantidades de datos almacenados en distintos formatos. Es decir, la tarea fundamental de la minería de datos es encontrar modelos inteligibles a partir de los datos.” (Ramírez Ferri et al., 2004) Este proceso ha sufrido una serie de cambios desde su concepción hasta la actualidad, diferenciándose cuatro etapas fundamentales, tal y como se recoge en Dataprix4: •. “Colección de Datos (1960). •. Acceso de Datos (1980). •. Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990). •. Minería Datos Inteligente ([fi]nales de la déada de 1990)”. Ahora bien, es necesario que para que el proceso de minería de datos sea efectivo se cumplan dos premisas: la primera es que éste “debería ser automático o semi-automático (asistido)” (Ramírez Ferri et al., 2004) y la segunda es que “el uso de los patrones descubiertos debería ayudar a tomar decisiones más seguras que reporten […] algún beneficio a la organización” (Ramírez Ferri et al., 2004). Actualmente la minería de datos se enfrenta a dos retos principales: “por un lado, trabajar con grandes volúmenes de datos, procedentes mayoritariamente de sistemas de información […] y por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y útil” (Ramírez Ferri et al., 2004) En resumen, podemos decir que la minería de datos es un proceso que si se realiza correctamente nos proporciona una gran fuente de información pero que para que se realice correctamente es necesaria una automatización o semi-automatización del proceso de minado y que éste nos ayude a realizar una toma de decisiones mejores u óptimas. 3.2.1. Fases del proceso de descubrimiento de conocimiento en bases de datos (KDD5) La minería de datos es un subproceso que permite la obtención de conocimiento utilizando como recurso los datos. El proceso principal dentro del cual se engloba la minería de datos es el KDD, ya que éste reúne otra serie de subprocesos que tienen como finalidad dejar los datos. 4 5. http://www.dataprix.com/171-evoluci-n-historia-miner-datos Knowledge Discovery from Databases. 21.

(24) lo más limpios posibles para poder analizarlos correctamente. En la figura 4 podemos ver todas las fases o subprocesos que integran el KDD. Figura 4.- Fases que componen el proceso de descubrimiento de conocimiento (KDD). Fuente: Ramírez Ferri et al. (2004) “[E]l KDD es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación del conocimiento extraído, etc.” (Ramírez Ferri et al., 2004) Como vemos, el KDD se compone de cinco subprocesos diferenciados los cuáles explicaremos uno a uno. “En la fase de integración y recopilación de datos se determinan las fuentes de la información que pueden ser útiles y dónde conseguirlas. A continuación, se transforman todos los datos a un formato común, frecuentemente mediante un almacén de datos que consiga unificar de manera operativa toda la información recogida, detectando y resolviendo las inconsistencias” (Ramírez Ferri et al., 2004) El propósito fundamental de esta fase es la creación de un almacén de datos cuyo objetivo es recopilar toda la “información coleccionada desde varias fuentes, almacenada bajo un esquema unificado que normalmente reside en un único emplazamiento. […] Esencialmente,. 22.

(25) los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base de datos multidimensional, donde cada dimensión corresponde a un atributo o conjunto de atributos en el esquema en torno a unos ‘hechos’ que almacenan el valor de alguna medida agregada” (Ramírez Ferri et al., 2004) En la fase de selección y limpieza “se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos incompletos. Además, se proyectan los datos para considerar únicamente aquellas variables o atributos que van a ser relevantes, con el objeto de hacer más fácil la tarea propia de minería y para que los resultados de la misma sean útiles.” (Ramírez Ferri et al., 2004) La finalidad fundamental que se persigue en esta fase es identificar datos de calidad con los que poder trabajar posteriormente, en la fase de minado. “La selección de atributos relevantes es uno de los preprocesamientos más importantes, ya que es crucial que los atributos utilizados sean relevantes para la tarea de minería de datos.” (Ramírez Ferri et al., 2004) “En la fase de minería de datos, se decide cuál es la tarea a realizar (clasificar, agrupar, etc.) y se elige el método que se va a utilizar. […] El objetivo de esta fase es producir nuevo conocimiento que pueda utilizar el usuario.” (Ramírez Ferri et al., 2004) Dentro de esta fase es necesario “tomar una serie de decisiones antes de empezar el proceso [siendo éstas]: •. Determinar qué tipo de tarea de minería es más apropiado. […]. •. Elegir el tipo de modelo [que vamos a utilizar] […]. •. [Y, por último,] [e]legir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que estamos buscando.” (Ramírez Ferri et al., 2004). “En la fase de evaluación e interpretación se evalúan los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteración. Esto incluye resolver posibles conflictos con el conocimiento que se disponía anteriormente. […] [L]os patrones descubiertos deben tener tres cualidades: ser precisos, comprensibles e interesantes.” (Ramírez Ferri et al., 2004). 23.

(26) “[P]ara entrenar y probar un modelo se parten los datos en dos conjuntos: el conjunto de entrenamiento (training set) y el conjunto de prueba o de test (test set). Esta separación es necesaria para garantizar que la validación de la precisión del modelo es una medida independiente.” (Ramírez Ferri et al., 2004) Existen varios métodos de evaluación, sin embargo, sólo hablaremos sobre dos de ellos: la validación simple y la validación cruzada con n pliegues. La validación simple es “[e]l método de evaluación más básico [este método] reserva un porcentaje de la base de datos como un conjunto de prueba, y no lo usa para construir el modelo. Este porcentaje suele variar entre el cinco y el 50 por ciento. La división de los datos en estos dos grupos debe ser aleatoria para que la estimación sea correcta. [Sin embargo,] [s]i tenemos una cantidad no muy elevada de datos para construir el modelo puede que no podamos permitirnos el lujo de reservar parte de los mismos para la etapa de evaluación.” (Ramírez Ferri et al., 2004) En cuanto al método de validación cruzada con n pliegues se trata del “método que se usa normalmente […]. En este método los datos se dividen aleatoriamente en n grupos. Un grupo se reserva para el conjunto de prueba y con los otros n-1 restantes […] se construye un modelo y se usa para predecir el resultado de los datos del grupo reservado. Este proceso se repite n veces, dejando cada vez un grupo diferente para la prueba. […] Finalmente, se construye un modelo con todos los datos y se obtienen sus ratios de error y precisión promediando las n ratios de error disponibles.” (Ramírez Ferri et al., 2004) “[E]n la fase de difusión se hace uso del nuevo conocimiento y se hace partícipe de él a todos los posibles usuarios. […] Una vez construido y validado el modelo puede usarse principalmente con dos finalidades: para que un analista recomiende acciones basándose en el modelo y en sus resultados, o bien para aplicar el modelo a diferentes conjuntos de datos.” (Ramírez Ferri et al., 2004) 3.3. La estadística como herramienta del procesamiento de datos. La estadística puede definirse como la ciencia que se nutre de datos recogidos de un espacio muestral y que utiliza para la consecución de un objetivo o resultado. Las nuevas técnicas de procesamiento de datos son un híbrido entre la computación y la estadística en base a que. 24.

(27) recogen y refinan datos para obtener resultados, agilizando este proceso a través de la potencia computacional. En la actualidad, el objetivo que tienen las empresas y organizaciones es predecir el comportamiento de consumidores y/o usuarios, para ello utilizan modelos predictivos definidos previamente por la estadística. 3.3.1. Los modelos de regresión como técnica predictiva: el modelo de regresión lineal. Primeramente, debemos decir que, “[h]ablamos de modelo de regresión cuando la variable de respuesta y las variables explicativas son todas ellas cuantitativas. Si sólo disponemos de una variable explicativa hablamos de regresión simple, mientras que si disponemos de varias variables explicativas se trata de un problema de regresión múltiple.” (Ramírez Ferri et al., 2004) Dentro de los modelos de regresión, el más simple es el modelo de regresión lineal. Este modelo está basado en una función en la que “cada variable explicativa participa de forma aditiva y constante para todo el dominio observado” (Ramírez Ferri et al., 2004) La función que gobierna este modelo es la siguiente: yi = β0 + β1 xi1 + ⋯ + βp xip + εi Como podemos ver, esta función incluye los residuos (εi ), que no es más que los errores que se producen al calcular los datos muestrales. Para solucionarlo, utilizamos la “minimización del cuadrado de los residuos (SCR)” (Ramírez Ferri et al., 2004) Ahora bien, la creación de un modelo de regresión no supone que éste vaya a ser bueno. Para determinar la fiabilidad y calidad del modelo utilizamos la bondad de ajuste. Ésta puede medirse de diferentes formas. Alguno de los estadísticos que sirven para medir la bondad de ajuste son la descomposición de la suma de cuadrados, el coeficiente de determinación, el coeficiente de determinación ajustado y el error cuadrático medio de predicción. 3.3.2. Utilización de métodos bayesianos para escenarios con incertidumbre. Como sabemos, la gran ventaja de los métodos bayesianos es “el uso explícito de la teoría de la probabilidad para cuantificar la incertidumbre” (Ramírez Ferri et al., 2004), es por ello por lo que se convierte en un instrumento fundamental de las técnicas de minería de datos.. 25.

(28) Las razones por las que se utilizan los métodos bayesianos son relevantes en la minería de datos principalmente por dos razones. La primera de ellas es que “[s]on un método práctico para realizar inferencias a partir de los datos, induciendo modelos probabilísticos que después serán usados para razonar […] sobre nuevos valores observados. Además, permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles”. (Ramírez Ferri et al., 2004) La segunda de ellas que es “[f]acilitan un marco de trabajo útil para la comprensión y análisis de numerosas técnicas de aprendizaje y minería de datos que no trabajan explícitamente con probabilidades.”. (Ramírez Ferri et al., 2004) Es importante destacar que un método de clasificación muy utilizado para los escenarios con incertidumbre son las redes bayesianas. El clasificador Naïve Bayes “se trata del modelo más simple de clasificación con redes bayesianas […]. El fundamento principal del clasificador Naïve Bayes […] es la suposición de que todos los atributos son independientes conocido el valor de la variable clase. […] Además, diversos estudios […] demuestran que sus resultados son competitivos con otras técnicas (redes neuronales y árboles de decisión entre otras) en muchos problemas y que incluso las superan en algunos otros.” (Ramírez Ferri et al., 2004) 3.4. Big Data: la clave del almacenamiento, procesamiento y análisis de datos masivos. 3.4.1. Introducción al Big Data El término Big Data hace referencia al almacenamiento, procesamiento y análisis de grandes cantidades de datos “que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos” (elEconomista). Para hablar apropiadamente sobre el término de Big Data tenemos que tener en cuenta que “la mayoría de los analistas y profesionales se refieren a conjuntos de datos que van desde 3050 Terabytes a varios Petabytes.” (Powerdata) Por ello, “[e]l término «Big Data» hace referencia a una acumulación masiva de datos tal, que supera la capacidad de las herramientas tradicionales para que sean capturados, gestionados y procesados en un tiempo razonable.” (Gómez Baldominos, 2016) Sin embargo, no todas las organizaciones optan por implementar el Big Data en su modelo de negocio y prefieren seguir utilizando las técnicas de análisis tradicional de datos. Las. 26.

(29) empresas que deciden implementar el Big Data en su modelo de negocio con respecto a las que prefieren seguir utilizando las técnicas de análisis de datos tradicionales se distinguen por tres hechos: “ 1. Por prestarle atención prioritaria al flujo de datos en lugar de a un stock fijo de los datos. 2. Por basarse en expertos en Big Data, «Data Scientists» (científicos de datos), en lugar de en analistas tradicionales de datos. 3. Por integrar el Big Data en el núcleo del negocio y en las áreas operacionales de producción.” (Gómez Baldominos, 2016) El hecho de prestarle atención prioritaria al flujo de datos en lugar de a un stock fijo de los mismos radica en que la concepción del análisis de datos ha cambiado. En el pasado, el análisis de datos encontraba su fundamento en determinar las causas de algún suceso que había acontecido, por lo que podemos decir que el análisis de datos tenía una finalidad a posteriori. Actualmente el empleo del Big Data en el análisis de datos tiene una finalidad a priori, ya que pretende generar modelos que permitan predecir situaciones o hechos antes de que éstos sucedan. En cuanto a basarse a expertos en Big Data en lugar de en analistas tradicionales de datos podemos decir que se trata de algo fundamental, ya que “las personas que trabajan con Big Data necesitan ciertos conocimientos informáticos y actuar de forma creativa. También tienen que estar cerca de los productos y procesos dentro de las organizaciones. Esto implica que el trabajo de estos profesionales se debe organizar de manera diferente a como el personal de análisis estaba organizado en el pasado.” (Gómez Baldominos, 2016). Es evidente que los profesionales que trabajan en el Big Data poseen unos conocimientos diferentes de los que pueda poseer un analista de datos tradicional, por ello cualquier organización que implemente el Big Data en su modelo de negocio deben enfocarse en estos analistas. “Los «científicos de datos», como se conoce a estos profesionales, deben entender la analítica, y también deben tener conocimientos de computación, de ciencias sociales y deben conocer el funcionamiento de las redes sociales. Sus capacidades incluyen, por tanto, la gestión de datos, un cierto conocimiento de los negocios y la capacidad de comunicarse de manera efectiva con los que toman las decisiones” (Gómez Baldominos, 2016).. 27.

(30) Finalmente, integrar el Big Data en el negocio principal y en las áreas operacionales y de producción se debe considerar un hecho preceptivo ya que, de otro modo, la organización no permite que el Big Data arraigue dentro de ella, generando un proceso de semi-adopción que resulta improductivo, ya que la organización no puede beneficiarse de la rentabilidad plena que ofrece el Big Data. 3.4.2. Los rasgos característicos del Big Data: las 5Vs. Una vez hemos analizado “en qué sentido las organizaciones que optan por el Big Data se diferencian del análisis tradicional de datos podemos estudiar los [cinco] rasgos característicos y diferenciadores del Big Data” (Gómez Baldominos, 2016) Estos cinco rasgos diferenciadores del Big Data son: el volumen, la variedad, la velocidad, el valor y la veracidad. Anteriormente estos rasgos diferenciadores eran únicamente tres (3Vs), siendo éstos el volumen, la variedad y la velocidad, “[s]in embargo, en base a la experiencia adquirida por las empresas pioneras [en el Big Data], se ha ampliado la definición original, añadiendo nuevas características como son la Veracidad y Valor del dato (5Vs).” (elEconomista) En cuanto la primera “V”, el volumen, surge a causa de “[l]a «Dataficación» de la sociedad, estamos generando y gestionando más cantidad de información en los últimos años que [en] toda la existencia de la humanidad. Esto ofrece a las empresas una oportunidad de trabajar con muchos petabytes de datos […]. El uso de grandes volúmenes de datos permite a los administradores decidir en base a hechos en lugar de tener que recurrir exclusivamente a la intuición. Por esta razón, contar con grandes volúmenes de datos tiene el potencial de revolucionar la gestión.” (Gómez Baldominos, 2016) Por otro lado, la segunda “V”, la velocidad, se refiere a la celeridad en el procesamiento de los datos, ya que, “[l]os modelos de inteligencia de negocios tradicionales requerían normalmente días para su procesamiento [el procesamiento de datos], mientras que en la actualidad es casi un requisito que el análisis sea en tiempo real, utilizando la corriente de entrada de datos de alta velocidad. Contar con información en tiempo real o casi en tiempo real hace posible que una empresa sea mucho más ágil que sus competidores.” (Gómez Baldominos, 2016). 28.

(31) Para terminar con las “V’s” originales tenemos la variedad. Esta característica es otro de los factores representativos del Big Data, ya que, [l]a información se recibe en forma de mensajes, actualizaciones e imágenes publicadas en las redes sociales, las lecturas de los sensores, las señales GPS de los teléfonos móviles y otras más.” (Gómez Baldominos, 2016) Por último, nos encontramos con la veracidad y el valor, dos factores que se han incorporado recientemente a los rasgos diferenciadores del Big Data. La veracidad tiene lugar porque “los datos deben ser fieles a la realidad, no estar manipulados y ser fiables. Datos erróneos o mal interpretados pueden conducir a un análisis pobre de los mismos y a obtener conclusiones distorsionadas” (Gómez Baldominos, 2016). En cuanto al valor, hay que decir que “esta propiedad hace referencia al hecho de que [,] al disponer de una mayor cantidad de datos, estos se pueden cruzar y analizar para obtener un valor de negocio que los datos que se almacenaban tradicionalmente no eran capaces de revelar.” (Gómez Baldominos, 2016) 3.4.3. El uso del Big Data en las organizaciones: Retos y oportunidades. Como hemos venido diciendo, el Big Data es una herramienta imprescindible para que una empresa sea competitiva en la actualidad, por ello la gran mayoría de las organizaciones lo están implementando dentro de su modelo de negocio. En el gráfico 2 podemos ver el crecimiento porcentual del Big Data en las empresas, agrupados por su sector de actividad. Este análisis se ha realizado en empresas con 10 o más empleados en el primer trimestre de 2017. Gráfico 2.- Encuesta sobre el Uso de Tecnologías de la Información y las Comunicaciones y del Comercio Electrónico en las Empresas. Agrupación de Actividad % de empresas que analizaron Big Data. (Primer trimestre de 2017). Fuente: Instituto Nacional de Estadística. 29.

(32) Como podemos apreciar en el gráfico, el crecimiento que ha tenido el Big Data en el cómputo global de empresas de los distintos sectores ha sido del 8,81%. A continuación, veremos el crecimiento sectorial que ha tenido esta tecnología en el primer trimestre de 2017. Dentro del sector industrial (CNAE 10-39) podemos ver que la media es del 5,75%. Destacan las empresas dedicadas a la metalurgia y fabricación de productos metálicos (CNAE 24-25) por la baja utilización de la tecnología Big Data dentro del sector, con un 2,57% de crecimiento. En contraposición a éste nos encontramos con el sector de la energía y el agua (CNAE 35-39), con un crecimiento del 14,8%. El diferencial que presentan estas empresas es de un 12,23%, con respecto al 5,75% de crecimiento medio del sector. Esto se debe a que las empresas que forman parte del sector de la energía y el agua (CNAE 35-39) han sabido aprovechar e implementar adecuadamente el Big Data, al contrario que el resto de sectores del grupo, lo que ha dado lugar a esta brecha de crecimiento en el sector industrial. En cuanto al sector de la construcción (CNAE 41) nos encontramos con un crecimiento del 6,51%. Vemos que se mantiene en sintonía con el crecimiento el sector industrial, y que crece, pero no demasiado. Este crecimiento lento o ligero se debe a la difícil implementación del Big Data en el sector debido a que hay que reformular el modelo de negocio para que esta herramienta tenga cabida. Probablemente algunas empresas hayan implementado el Big Data, pero hayan sido pocas en comparación el sector. En el sector de servicios existe un crecimiento total del 10,67%. De este crecimiento medio del sector tenemos que destacar obligadamente las empresas dedicadas a la información y comunicaciones (CNAE 58-63) ya que goza de un crecimiento en el uso del Big Data del 26,18%, siendo la que más crecimiento ha tenido del total de empresas analizadas de los diferentes sectores. Es evidente que el Big Data tenía que despuntar en esta área porque se trata de una herramienta fundamental que marca una ventaja competitiva diferencial con respecto a los competidores, por ello la gran mayoría de empresas que pertenecen a esta área de actividad se han esforzado para implementar el Big Data en su modelo de negocio. Por el contrario, nos encontramos con el sector de las actividades administrativas y servicios auxiliares (incluido agencias de viajes) (CNAE 77-82). Este sector únicamente tiene un crecimiento del 5,56%, incluso más bajo que el crecimiento del total de empresas. 30.

(33) pertenecientes a la construcción (CNAE 41). La causa que podemos encontrar a este crecimiento tan a la baja es que este tipo de sector no necesita un componente diferenciador tan exigente en cuanto a su implementación, debido posiblemente a la baja competencia que tiene el sector. Hay que decir que el diferencial que encontramos en este sector es del 20,62%, el cual se aleja bastante de la media del crecimiento del Big Data calculada para el total de empresas que componen el sector servicios. Realmente la media no se aleja del todo a la realidad porque si nos fijamos en la gráfica hay sectores de actividad, como el de Transporte y almacenamiento (CNAE 49-53) y el de servicios de alojamiento (CNAE 55), cuyos crecimientos son buenos, del 17,56% y 15,57% respectivamente. Sin embargo, otros sectores de actividad, como el de venta y reparación de vehículos de motor comercio al por menor (CNAE 45-47) y el de actividades inmobiliarias (CNAE 68) tienen crecimientos bajos, un 7,51% y 6,21% respectivamente. Esta combinación de altibajos da lugar a una media modesta y a un diferencial tan impactante si lo comparamos realizamos la comparación entre ambos. Por último, el sector TIC (261-264, 268, 465, 582, 61, 6201, 6202, 6203, 6209, 631, 951) registra un crecimiento en el empleo del Big Data del 25,18%, convirtiéndose en el sector que tiene un mayor crecimiento. La explicación lógica de esto es que el sector TIC tiene un componente altamente competitivo de forma que necesitan diferenciarse lo mejor posible y para ello han implementado Big Data en las organizaciones. El Big Data es un campo nuevo que nos abre un sinfín de posibilidades y, por consiguiente, nuevos retos y oportunidades. Los retos que nos plantea el Big Data pueden dividirse en dos grandes campos: los retos tecnológico-analíticos y los retos de cara a la gestión. Los retos tecnológico-analíticos tienen lugar por “los desafíos tecnológicos que conlleva la implementación de Big Data […], en primer lugar, un problema de madurez de las soluciones. […] Muchos de los grandes desarrollos de empresa se encuentran en etapas piloto. En segundo lugar, hay que admitir que el gran reto tecnológico se deriva de que la velocidad, el volumen y la variedad de los datos no dan muestras de reducir su ritmo, lo que plantea la necesidad de que las soluciones tecnológicas estén en un proceso de continua mejora.” (Gómez Baldominos, 2016). 31.

(34) Estos retos técnicos son de diversa índole, pero podemos destacar especialmente los retos que supone la recolección, el almacenamiento, el procesamiento y el análisis de los datos. El reto que plantea la recolección es distinto “según se trate de fuentes de tipo online u offline. En cualquier de los casos, habrá que desarrollar unos sistemas de extracción de datos que resulten coherentes con los sistemas de almacenamiento.” (Gómez Baldominos, 2016) En cuanto al almacenamiento únicamente destacar que el reto esencial que plantea es que “hacen falta nuevas tecnologías de almacenamiento más baratas.” (Gómez Baldominos, 2016) Con respecto al procesamiento, el reto que plantea es la creación de “nuevos modelos de programación.” (Gómez Baldominos, 2016) Y, para concluir con los retos tecnológico-analíticos, el reto que plantea el análisis radica en que “los datos necesitan ser analizados para sacarle valor […]. Para ello se cuenta con técnicas de Data Mining. Pero muchos de los algoritmos de conocimientos […] son difícilmente aplicables cuando se tienen miles de millones [de datos].” (Gómez Baldominos, 2016) Por otro lado, los retos de cara a la gestión están orientados a la utilización correcta de los datos y de su tratamiento, ya que anteriormente su coste de captura y almacenamiento era costoso y por ello los análisis solían hacerse con muestras de datos, no con el cómputo global de las diferentes bases de datos. Sin embargo, “el potencial de las nuevas herramientas de cálculo propicia que a las organizaciones cada vez les resulte más fácil optar por utilizar todos los datos, no sólo una muestra” (Gómez Baldominos, 2016) Este enfoque de nuevos retos que plantea el Big Data son la idoneidad de los micro-datos, la escasez de expertos, la selección adecuada de la información relevante, alienar Big Data y el negocio, es decir, “[e]s necesario establecer pasarelas de comunicación entre los científicos de datos y los gestores de la organización.” (Gómez Baldominos, 2016). También resulta imprescindible seleccionar las correlaciones relevantes “que interesan al negocio.” (Gómez Baldominos, 2016), y, muy importante, comunicar de forma efectiva, es decir, “hay que decidir cómo se comunican los resultados, de forma de que se propicie la toma de decisiones y se facilite la respuesta por parte de la organización.” (Gómez Baldominos, 2016). Ahora bien, en cuanto a las oportunidades derivadas de la aplicación del Big Data tenemos que destacar como oportunidad esencial la abundancia de los datos.. 32.

(35) Como podemos ver en la figura 4, la evolución que presenta el Big Data desde los años 70 hasta los años posteriores al comienzo del siglo XXI pasa conjuntamente por una evolución en el tipo de datos. De esta forma podemos apreciar que hasta la época de 1970 se realizaba un almacenamiento básico de datos, los cuáles eran de tipo estructurado, que, como ya vimos, apenas arrojan información útil predominando el almacenamiento de los datos. Posteriormente, entre las décadas de 1980 y 1990 surge un crecimiento exponencial del volumen de los datos que trae consigo las bases de datos relacionales, y los datos que se manejan pasan a ser más complejos, transformándose en tipo relacional. Es en esta época en la que se empieza a realizar un uso de los datos. En la etapa actual contamos con Datos estructurados en conjunto con datos no estructurados. Como podemos apreciar la naturaleza de algunos datos ha pasado a transformarse en muy compleja al aparecer datos no estructurados. Estos datos, como ya vimos anteriormente, arrojan información mucho más útil que los datos de tipo estructurado, lo que los convierte en información muy útil. Figura 4.- Evolución del Big Data. Fuente: Gómez Baldominos (2016). 33.

(36) 3.4.4. La ética dentro del fenómeno Big Data La ética es el conjunto de normas morales que rigen la conducta de la persona en cualquier ámbito de la vida. Sin embargo, no todos los filósofos han entendido la ética de la misma manera. Para Aristóteles (384 a.C.-322 a.C.), la ética es la ciencia que “[s]e ocupa de las virtudes morales que no son innatas, ni las transmite simplemente el maestro al discípulo, [sino que] se adquieren mediante la práctica y se pierden por falta de ésta” (Torres Hernández, 2014) ; para Epicuro (341 a.C.-270 a.C.), la ética consiste en la “[b]úsqueda de la felicidad concebida como la eliminación del dolor” (Torres Hernández, 2014); para Bertrand Russel (1872-1970), la ética son “[p]rincipios generales que ayudan a determinar las reglas de conducta” (Torres Hernández, 2014); y, para Antonio Raluy Ballus (1990), la ética es la “[r]ama de la filosofía que tiene por objeto de estudio la moral de los actos humanos y sus consecuencias en la vida social.” (Torres Hernández, 2014). Ahora bien, a pesar de que la ética esté estrechamente relacionada con la conducta humana, también “tiene que ver con las acciones humanas en la vida social, por tanto, la ética se relaciona con todos los quehaceres humanos que ahora se expresan como productos científicos y tecnológicos” (Torres Hernández, 2014). Es por esto por lo que es necesario que hagamos una contextualización de la ética dentro del fenómeno del Big Data. Esta ética se ramifica al considerar distintos aspectos que involucran al Big Data, “puede considerarse una ética de ámbito profesional en tanto que se ocupa esencialmente de la responsabilidad de determinados grupos de expertos, pero también tendría una parte de ética empresarial en tanto que dichos expertos trabajan en corporaciones de ámbito privado o público que deben desarrollar una determinada cultura ética que les permita tomar decisiones orientadas hacia el interés general de la sociedad o bien común.” (Colmenarejo Fernández, 2018). La era tecnológica ha traído consigo cuatro temas éticos esenciales, los cuáles estableció Richard Mason en 1986: “la intimidad, la exactitud, la propiedad intelectual y la accesibilidad.” (Colmenarejo Fernández, 2018). Sin embargo, la utilización de las nuevas tecnologías de tratamiento de datos masivo de datos, podrían reformular los problemas éticos formulados por Mason en: “identidad, privacidad, propiedad y reputación.” (Colmenarejo Fernández, 2018) En cuanto a la identidad se refiere, el debate ético surge “[e]n nuestra interacción con la tecnología, como en cualquier otra forma de acción humana, la cuestión no es solo qué uso hacemos de ella sino, esencialmente, en qué tipo de persona nos transformamos cuando estamos 34.