• No se han encontrado resultados

UNIDAD V Datos Masivos

N/A
N/A
Protected

Academic year: 2021

Share "UNIDAD V Datos Masivos"

Copied!
13
0
0

Texto completo

(1)

UNIDAD V

(2)

¿Qué es big data?

Para entender qué significa realmente "big data", resulta útil conocer ciertos antecedentes históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y que continúa siendo la definición de referencia): Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como "las tres V".

Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos convencional sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar problemas empresariales que antes no hubiera sido posible solucionar.

(3)

Las "tres V" de big data Volumen

La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de petabytes.

Velocidad La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna

acción. La mayor velocidad de los datos normalmente se transmite directamente a la memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación y actuación en tiempo real.

Variedad La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos

convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio o vídeo, requieren un preprocesamiento adicional para poder obtener significado y habilitar los metadatos.

(4)

El valor y la realidad de big data

En los últimos años, han surgido otras "dos V": valor y veracidad.

Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?

Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.

(5)

Con la llegada del Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los productos. El surgimiento del aprendizaje automático ha producido aún más datos.

Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud Computing ha ampliado aún más las posibilidades del big data.

La nube ofrece una escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto de datos.

(6)

Ventajas de big data y de la analítica de datos:

• El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad de información.

• La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo que implica un enfoque completamente distinto a la hora de abordar problemas.

(7)

Cómo funciona big data?

El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos de negocio. Iniciarse en ello requiere de tres acciones clave:

1. Integrar

El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar, cargar]), generalmente no están a la altura de dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías.

Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos.

(8)

2. Gestionar

El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premises o en ambos. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento.La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.

3. Analizar

La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos.

(9)

DATOS ESTRUCTURADOS

1. Creado

Las empresas de datos generan mucha información para la investigación de mercados. Esta acción puede consistir en elaborar encuesta a clientes o grupos de discusión. El proceso también incluye métodos más modernos como la creación de un programa de fidelización que recopile información de los consumidores o bien pidan a un usuario que creen una cuenta y entren cuando están comprando. 2. Provocado

Dar la oportunidad a las personas a expresar sus puntos de vista genera un gran volumen de datos. Cada vez que el cliente valora un restaurante o la experiencia de compra, es un sumatorio de información.

(10)

3. Tramitado

Las empresas recogen datos sobre todas las transacciones completadas, si la compra se ha completado a través de un carrito de la compra online o directamente en el punto de venta.

Las organizaciones también recopilan datos sobre el proceso de una compra online. Por ejemplo, un cliente puede hacer clic en un banner en google que les conduce a las páginas del producto que van a comprar.

4. Compilado

Los censos de población, el número de coches matriculados cada año, el volumen de compra en un supermercado son datos compilados en grandes bases de datos de todos los hogares. Cada país tiene su propio sistema. Los individuos tenemos una serie de información básica registrada que incluye nuestra identificación, familia, estudios, antecedentes, datos médicos, etc.

(11)

5. Experimental

Se crean datos experimentales cuando las empresas experimentan con diferentes acciones de marketing y mensajes para ver cuáles son los más efectivos hacia los consumidores.

También podemos interpretar los datos experimentales como una combinación de datos creados y transaccionales.

6. Capturados

Los datos capturados se crean de forma pasiva debido a la conducta de una persona. Cada vez que alguien entra en un término de búsqueda en Google este motor, utiliza la información capturada para un futuro beneficio.

La información del GPS en nuestros smartphones es otro ejemplo de recogida de datos pasiva que puede ser capturados con las plataformas tecnológicas del Big Data.

(12)

7. Generados por el usuario

Los datos generados por los usuarios se componen de todos los datos de las personas que están introduciendo en Internet diariamente. Desde tweets, mensajes de Facebook, a los comentarios en las noticias, videos subidos en YouTube.

Los individuos están creando una enorme cantidad de datos que las empresas pueden utilizar para mejorar su relación con los consumidores y obtener información sobre productos.

(13)

DATOS NO ESTRUCTURADOS

Son aquellos datos no almacenados en una base de datos tradicional. La información no estructurada no puede ser almacenada en estructuras de datos relacionales predefinidas.

Se pueden establecer diferentes clasificaciones, vamos a considerar dos de ellas.

• Datos no estructurados y semiestructurados. Los datos semiestructurados serían aquellos datos que no residen de bases de datos relacionales, pero presentan una organización interna que facilita su tratamiento, tales como documentos XML y datos almacenados en bases de datos NoSQL

• Datos de tipo texto y no-texto. Datos no estructurados de tipo texto podrían ser datos generados en las redes sociales, foros, e-mails, presentaciones Power Point o documentos Word, mientras que datos no-texto podrían ser ficheros de imágenes jpeg, ficheros de audio mp3 o ficheros de video tipo flash.

Referencias

Documento similar

Además, durante la realización de este proyecto se ha diseñado y desarrollado un sistema que permite detectar el uso de herramientas de chat mediante el

Este trabajo pretende aprovechar este crecimiento del Machine Learning para crear y entrenar desde cero un modelo de red neuronal que sea capaz de clasificar imágenes de

U-Ranking cuenta con la colaboración del Ministe- rio de Universidades, al permitirnos el acceso al Sistema Integrado de Información Universitaria (SIIU). El SIIU es

El valor agregado 6 del indicador por universidad se pre- senta en una escala de 0 (mínimo valor obtenido por una universidad del sistema en ese indicador) a 100 (correspondiente

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

El segundo paso es elegir la comunidad autónoma o comunidades que se contemplan como lugares en los que cursar los estudios. Para ello, el usuario debe marcar las elegidas

BASES DE DATOS (IG18 Semipresencial) Diseño Físico de Bases de Datos Relacionales.. Lledó Museros /

Cuando se realiza una revisión integrativa entorno a un tema como el de la sintomatología presente en los pacientes con enfermedad oncológica avanzada, que motivan el