UNIDAD V
¿Qué es big data?
Para entender qué significa realmente "big data", resulta útil conocer ciertos antecedentes históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como "las tres V".
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.
Las "tres V" de big data Volumen
La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.
Velocidad La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna
acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.
Variedad La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos
convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.
El valor y la realidad de big data
En los últimos años, han surgido otras "dos V": valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.
Con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje automático ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data.
La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos.
Ventajas de big data y de la analítica de datos:
• El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.
• La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.
Cómo funciona big data?
El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:
1. Integrar
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar, cargar]), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.
2. Gestionar
El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premises o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento.La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
3. Analizar
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos.
DATOS ESTRUCTURADOS
1. Creado
Las empresas de datos generan mucha información para la investigación de mercados. Esta acción puede consistir en elaborar encuesta a clientes o grupos de discusión. El proceso también incluye métodos más modernos como la creación de un programa de fidelización que recopile información de los consumidores o bien pidan a un usuario que creen una cuenta y entren cuando están comprando. 2. Provocado
Dar la oportunidad a las personas a expresar sus puntos de vista genera un gran volumen de datos. Cada vez que el cliente valora un restaurante o la experiencia de compra, es un sumatorio de información.
3. Tramitado
Las empresas recogen datos sobre todas las transacciones completadas, si la compra se ha completado a través de un carrito de la compra online o directamente en el punto de venta.
Las organizaciones también recopilan datos sobre el proceso de una compra online. Por ejemplo, un cliente puede hacer clic en un banner en google que les conduce a las páginas del producto que van a comprar.
4. Compilado
Los censos de población, el número de coches matriculados cada año, el volumen de compra en un supermercado son datos compilados en grandes bases de datos de todos los hogares. Cada país tiene su propio sistema. Los individuos tenemos una serie de información básica registrada que incluye nuestra identificación, familia, estudios, antecedentes, datos médicos, etc.
5. Experimental
Se crean datos experimentales cuando las empresas experimentan con diferentes acciones de marketing y mensajes para ver cuáles son los más efectivos hacia los consumidores.
También podemos interpretar los datos experimentales como una combinación de datos creados y transaccionales.
6. Capturados
Los datos capturados se crean de forma pasiva debido a la conducta de una persona. Cada vez que alguien entra en un término de búsqueda en Google este motor, utiliza la información capturada para un futuro beneficio.
La información del GPS en nuestros smartphones es otro ejemplo de recogida de datos pasiva que puede ser capturados con las plataformas tecnológicas del Big Data.
7. Generados por el usuario
Los datos generados por los usuarios se componen de todos los datos de las personas que están introduciendo en Internet diariamente. Desde tweets, mensajes de Facebook, a los comentarios en las noticias, videos subidos en YouTube.
Los individuos están creando una enorme cantidad de datos que las empresas pueden utilizar para mejorar su relación con los consumidores y obtener información sobre productos.
DATOS NO ESTRUCTURADOS
Son aquellos datos no almacenados en una base de datos tradicional. La información no estructurada no puede ser almacenada en estructuras de datos relacionales predefinidas.
Se pueden establecer diferentes clasificaciones, vamos a considerar dos de ellas.
• Datos no estructurados y semiestructurados. Los datos semiestructurados serían aquellos datos que no residen de bases de datos relacionales, pero presentan una organización interna que facilita su tratamiento, tales como documentos XML y datos almacenados en bases de datos NoSQL
• Datos de tipo texto y no-texto. Datos no estructurados de tipo texto podrían ser datos generados en las redes sociales, foros, e-mails, presentaciones Power Point o documentos Word, mientras que datos no-texto podrían ser ficheros de imágenes jpeg, ficheros de audio mp3 o ficheros de video tipo flash.