Big Data
Definición
Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
Datos Estructurados
Los datos estructurados por lo general residen en bases de datos relacionales (RDBMS). Los campos almacenan números de teléfono de datos, números de
identificación o códigos postales delimitados por longitud. Incluso las cadenas de texto de longitud variable, como los nombres, están contenidas en los registros, por lo que es una cuestión fácil de buscar.
Las aplicaciones comunes de bases de datos relacionales con datos estructurados incluyen sistemas de reserva de líneas aéreas, control de inventario,transacciones de ventas y registros de cajeros automáticos.
El lenguaje de consulta estructurado (SQL) permite realizar consultas sobre este tipo de datos estructurados dentro de bases de datos relacionales.
Datos no estructurados
Los datos no estructurados son esencialmente todo lo demás. Los datos no estructurados tienen una estructura interna, pero no están
estructurados a través de esquemas o modelos de datos predefinidos.
Los datos no estructurados típicos generados por el hombre incluyen:
Archivos de texto: procesamiento de textos, hojas de cálculo, presentaciones, correo electrónico, registros.
Datos no estructurados
Correo electrónico: el correo electrónico tiene cierta estructura interna gracias a sus metadatos, y a veces lo llamamos semiestructurado. Sin embargo, su campo de mensaje no está estructurado y las herramientas de análisis tradicionales no pueden analizarlo.
Redes sociales: Datos de Facebook, Twitter, LinkedIn.
Datos no estructurados
Sitios web: YouTube, Instagram, sitios para compartir fotos.
Datos móviles: mensajes de texto, ubicaciones.
Comunicaciones: chat, mensajería instantánea, grabaciones telefónicas, software de colaboración.
Medios: MP3, fotos digitales, archivos de audio y video.
Aplicaciones empresariales: documentos de MS Office, aplicaciones de productividad.
Datos no estructurados
Los datos no estructurados típicos generados por una máquina incluyen:
Imágenes satelitales: datos meteorológicos, formas terrestres, movimientos militares.
Datos científicos: exploración de terreno, exploración espacial, imágenes sísmicas, datos atmosféricos.
Vigilancia digital: Fotos de vigilancia y video.
Datos de sensores: tráfico, clima, sensores oceanográficos.
Big Data
Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabyte de datos.
Entonces ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data?
¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información
constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran
guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso.
Tipos de Big Data
¿De dónde proviene toda esa información?
1.- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular
¿De dónde proviene toda esa información?
3.- Big Transaction Data: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas (CDR), etc.
Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
¿De dónde proviene toda esa información?
4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
¿De dónde proviene toda esa información?
4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.