Una Perspectiva Global de la Arquitectura de Procesamiento

Capítulo 5. Arquitectura de Procesamiento basada en Metadatos de Mediciones

5.1 Una Perspectiva Global de la Arquitectura de Procesamiento

Los dispositivos asociados con Internet de las Cosas (IoC) suelen ser alternativas económicas y accesibles para implementar diferentes estrategias de monitoreo. Por esa razón, no suena extraño disponer de diferentes dispositivos midiendo (o monitoreando) distintos aspectos relacionados con el entorno, hogar, entre otras aplicaciones [140].

Figura 19 Visión Transversal de los Proyectos de Medición

La idea de reutilizar dispositivos instalados previamente (aún cuando no hayan tenido el mismo objetivo inicial) suena interesante para optimizar un presupuesto.

Incluso podría permitir contar con puntos de vistas adicionales, acceder a datos históricos (en caso de disponibilidad) y compartirse entre varios proyectos de medición, tal y como puede apreciarse en la Figura 19. Sin embargo, ello requeriría una articulación entre las fuentes de datos que son heterogéneas en términos del instrumento (o dispositivo) pero también en base al proyecto en el cual se incorporaron originalmente.

Por un lado, los dispositivos heterogéneos debieran articularse consistentemente con otros proyectos de medición (en [141], se menciona como puente semántico). Por otro lado, se plantea una relación complementaria entre proyectos de medición.

Cada proyecto de medición representa un diseño experimental alineado con un objetivo definido por el usuario. Esto es una perspectiva transversal para describir cómo los datos (o medidas) son recolectadas. Por ejemplo, la Figura 19 describe una capa física donde existen un conjunto de estaciones de monitoreo ambiental preinstaladas

123

(indicadas con estrellas). A su vez, existen tres proyectos de medición diferentes por capa: (1) El proyecto 1 se focaliza en el monitoreo de material particulado, (2) El proyecto 2 se centra en el monitoreo del paciente ambulatorio, (3) El proyecto 3 aborda el monitoreo de la actividad física. Claramente, ninguno de ellos comparte su objetivo y focaliza en características y entidades diferentes. Ahora bien, ello no implica que un proyecto no pueda capitalizar características que le pueden ser interesantes y complementarias (aún con divergencia del objetivo). Por ejemplo, el proyecto 1 podría reutilizar información de las estaciones de monitoreo ambiental para complementar las lecturas de material particulado (por ejemplo, humedad y temperatura). Similarmente, el proyecto 2 podría aprovechar las estaciones de monitoreo ambiental y las lecturas de material particulado para caracterizar las zonas por donde un paciente ambulatorio está caminando. El capítulo 3 ha introducido el rol de la estrategia GOCAME-ESVI para describir el proyecto de medición basado en la ontología ECINCAMI e intercambiarlo mediante BriefPD (alternativamente JSON o XML).

Ahora bien, una vez que cada proyecto se define y cuenta con el respectivo contenido intercambiable mediante BriefPD, es necesario recolectar, procesar, y analizar las medidas guiadas por tal definición para poder implementar el monitoreo. En este punto es donde toma especial interés la Arquitectura de Procesamiento de Datos basada en Metadatos de Mediciones (en inglés PAbMM) [117], [142] introducida en la Figura 20.

La arquitectura PAbMM se encuentra organizada para satisfacer dos perspectivas de procesamiento alrededor de un proceso de medición: la consolidación central y recolección distribuida.

Por un lado, el procesamiento de consolidación central se basa en la nube para incorporar confiabilidad y escalabilidad. Posee una organización multinivel caracterizada como sigue:

• Organizarse en capas. Cada una se asocia con un servicio requerido para la automatización de la medición y recomendación (es decir, gestión de dispositivos, diseño experimental, gestión de conocimiento, recolección de datos, analítica y servicios de datos).

• Cada capa actúa en forma autónoma para promover la paralelización, aunque ellas se encuentran relacionadas unas con otras para servir el proceso de medición.

Por otro lado, el monitoreo en campo implica áreas amplias de cobertura y cierto nivel de resolución (es decir, dispositivos por área). Tanto la nube como la cobertura en campo son acotados en alcance por presupuesto y la tecnología de comunicación. De este modo, el acercamiento de recolección se organiza jerárquicamente alrededor de pasarelas y adaptadores de medición (o puentes semánticos). Las pasarelas cuentan con una mejor configuración de hardware y soportan memorias caché entre la nube y adaptadores de medición. Los adaptadores de medición (o puentes semánticos) tratan

124

directamente con los sensores. Ellos traducen datos planos desde el sensor en un formato específico siguiendo la definición del proyecto (es decir, BriefPD). Una pasarela puede coordinar uno o más puentes semánticos, haciendo escalable el monitoreo a través de la jerarquía.

Figura 20 Perspectiva General de la Arquitectura de Procesamiento basada en Metadatos de Mediciones

PAbMM permite automatizar el proceso de medición utilizando la definición del proyecto mediante BriefPD. El contenido se carga en memoria de acuerdo con el modelo de objetos (Ver ECINCAMI en Capítulo 3) y se crean las estructuras de datos en memoria para interpretar y procesar los datos (medidas) en tiempo real [139]. Esto constituye el paso inicial en la arquitectura para cualquier proyecto de medición. De igual modo, los adaptadores de medición emplean el contenido de BriefPD para identificar las entidades que monitorean y cómo emparejar sus sensores respecto de las métricas que implementan. Es decir, procesado el archivo de definición del proyecto, cada adaptador

125

de medición sabe que un sensor dado provee valores para una métrica determinada y que esta cuantifica un atributo o propiedad contextual de una entidad o su contexto.

Por ello, los dispositivos en campo (sean pasarelas o adaptadores de medición) reciben el conjunto de definiciones con quienes ellos colaboran. De este modo, (1) Los dispositivos conocen cómo traducir un dato crudo desde los sensores en flujos de medidas con etiquetas a través del adaptador de medición (o puente semántico) [141]–

[143] y (2) PAbMM conoce cómo interpretar cada etiqueta, ID, entre otros elementos empleando la definición del proyecto (BriefPD).

Desde la perspectiva basada en la nube, las capas de PAbMM tienen los siguientes objetivos:

• Gestión de Dispositivos: Es responsable de mantener actualizado un repositorio central con los dispositivos involucrados en la estrategia de recolección de datos para todos los proyectos de medición activos, y, además, de mantener la comunicación de datos bidireccional con ellos (por ejemplo, para enviar alarmas basado en los datos analizados).

• Diseño Experimental: Es responsable de gestionar cada definición de proyecto de medición (activa o no), un registro con el conjunto de operaciones asociadas, los nodos vinculados (adaptador de medición o pasarela), y de mantener actualizado la probabilidad para escenarios y estados de entidad de acuerdo con el procesamiento de las medidas recibidas. Esta capa es quien inicializa un proyecto de medición, mientras que la capa de gestión de dispositivos comunica mediante BriefPD los distintos proyectos a los respectivos nodos.

• Gestión del Conocimiento: Su función esencial es la gestión de experiencias previas y de conocimiento específico para cada proyecto. Se encuentra organizada en base a casos, donde cada atributo (o propiedad contextual) representan una característica. De este modo, los clasificadores incrementales emplean dicho conjunto de datos para soportar un razonamiento basado en casos dentro y entre proyectos. Aquí es donde se emplea la distancia compuesta introducida en el capítulo 4.

• Recolección o Reunión de Datos: Como su nombre representa, esta capa se focaliza en recibir el flujo de medidas (datos y metadatos) desde los adaptadores de medición, procesarlos e interpretarlos siguiendo la definición del proyecto.

Adicionalmente, actualiza las probabilidades relacionadas con los estados de entidad y escenarios (articulado con la capa de diseño experimental) y crea una síntesis de datos que se almacena en la base de datos columnar [144]. Como registro de integridad, un árbol de Merkle es continuamente actualizado de acuerdo con las medidas recibidas de cada dispositivo.

126

• Analíticas: Esta capa analiza los datos en tiempo real para actualizar la estadística descriptiva por métrica de proyecto, ejecutar el análisis de asociación entre métricas (ejemplo, análisis de correlación), y el análisis comportamental desde la perspectiva de la distribución de datos.

• Servicios de Datos: Esta capa facilita el consumo de datos a terceros bajo modalidad de suscripción en tres modos. El servicio de datos crudos replica el flujo de medidas etiquetado (datos y metadatos) por proyecto tal y como arriba desde las fuentes de datos. El servicio de datos procesados provee acceso bajo demanda a los resultados del procesamiento por proyecto (ejemplo, estadística descriptiva). Finalmente, el servicio de datos históricos provee acceso a los datos procesados por proyecto de acuerdo con la política de síntesis.

Cada capa se implementa mediante microservicios y tiene un funcionamiento autónomo que le permite funcionar parcialmente (o con degrades en la calidad del servicio) cuando otra capa se torne no disponible. Por ejemplo, si se cortare la recolección de datos, el servicio de datos seguiría funcionando con la última información conocida.

Desde la perspectiva de Internet de las Cosas, se han introducido dos tipos de roles en los dispositivos: Pasarela y Adaptador de Medición (o Puente Semántico). Las pasarelas y adaptadores de medición se organizan jerárquicamente y mantienen el registro unificado de nodos utilizando una base de datos distribuida basada en Blockchain [145] (Ver Capítulo 6). Sus principales funciones son:

• Pasarelas: Es responsable de proveer servicios de caché para las definiciones de proyecto y recomendaciones entre la nube y adaptadores de medición. A su vez, soporta las transmisiones de datos indirectas (Ver sección 5.2.3) desde los adaptadores de medición ante situaciones particulares (ejemplo, el adaptador se encuentra fuera de alcance para una transmisión directa).

• Adaptador de Medición: Actúa como puente semántico guiado por la definición del proyecto de medición. Es decir, toma los datos crudos de uno o más sensores y los traduce a flujos etiquetados incorporando metadatos que describen su semántica (por ejemplo, la métrica a la que pertenece cada número o distribución de probabilidad). El flujo de medición etiquetado es transmitido (directamente o no) hacia la capa de recolección de datos mediante microservicios.

Dado que un dispositivo es autónomo y puede ser reutilizado entre proyectos, la relación entre dispositivos es direccionada mediante una base de datos basada en Blockchain. Es decir, incluso cuando se cuenta con un registro central en la nube (Ver

127

capa gestión de dispositivos en la Figura 20, el inventario de dispositivos se gestiona en forma distribuida en campo. De este modo, cada dispositivo (sea una pasarela o adaptador de medición) es el único autorizado para registrar/actualizar/borrar sus datos descriptivos en la cadena de bloques (ejemplo, dirección IP, clave pública, puertos disponibles, servicios de datos, etc.). El empleo de esta tecnología permite asegurar la trazabilidad de cada cambio incorporado en los registros, proveyendo confiabilidad sobre la información de contacto de un dispositivo. En el capítulo seis se volverá sobre este aspecto y se proveerán detalles.

In document Estrategia de recomendación por similitud semántica en repositorios con grande volúmenes de datos de medición y evaluación (página 122-127)