Marco de desarrollo del Sistema de Datos Integrados de Canarias (idatos)

(1)

Marco de desarrollo del Sistema de Datos Integrados de Canarias (iDatos)

Autores: Jesús Alberto González Yanes, Noelia Martín Morales, Andrés Rodríguez González, Domingo J. Lorenzo Díaz, Rafael Betancor Villalba, Esther Torres Medina.

Organismo de procedencia: Instituto Canario de Estadística (ISTAC)

Palabras clave : Data Management, Multifuentes, Microintegración, Directorios.

Resumen:Las modificaciones operadas por la Ley 9/2014, de 6 de noviembre, de medidas tributarias, administrativas y sociales de Canarias sobre la Ley 1/1991, de 28 de enero, reflejan, en su artículo 9, la voluntad de que el Instituto Canario de Estadística sea el único Departamento con competencias en materia de estadísticas, sin perjuicio de la colaboración necesaria con el resto de Departamentos, con el objeto de optimizar al máximo los recursos materiales y personales disponibles en la Comunidad Autónoma de Canarias.

A su vez la modificación del artículo 32 de la Ley 1/1991 de Estadística de la Comunidad Autónoma de Canarias indica que se constituirá un banco de datos administrativos para fines estadísticos, que se nutrirá prioritariamente de los ficheros administrativos de la Comunidad Autónoma de Canarias, a cuyo fin todos los departamentos deberán remitir al Instituto Canario de Estadística los ficheros administrativos de los que sean titulares y que sean necesarios para el ejercicio de la función estadística. Los referidos ficheros deberán adecuarse, para su remisión, a los requisitos técnicos que establezca el Instituto. Asimismo se señala que el banco de datos administrativos para fines estadísticos deberá facilitar la fusión de los ficheros para fines estadísticos.

Este banco de datos se elabora a fin de mejorar la eficiencia de la actividad estadística de interés de la Comunidad Autónoma de Canarias y para su desarrollo durante la ejecución del Plan Estadístico de Canarias 2018-2022 se impulsará el Sistema de Datos Integrados (iDatos). Dicho sistema debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas. A su vez el Sistema de Datos Integrados debe facilitar la obtención de estadísticas espaciales, mediante la georreferenciación de la información dentro de un Marco de Estadística Espacial de Canarias alineado con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI. United Nations Expert Group on the integration of Statistical and Geospatial Information).

(2)

I. MARCO NORMATIVO DEL SISTEMA DE DATOS INTEGRADOS 2 1.1. El Sistema de Datos Integrados en la legislación y planificación estadística 2

1.2. El Comité Técnico del Sistema de Datos Integrados 4

II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN DEL SISTEMA 5

2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos 5

2.2. Organización de los microdatos para facilitar su integración 8

2.3. Organización de la información geográfica para facilitar la estadística espacial 12 2.3.1. Almacenamiento en los esquemas-tipo de Información Geográfica de Referencia (IGR) 12 2.3.2. Almacenamiento de georreferencias en los esquemas de microdatos 13

2.3.3. La geocodificación de georreferencias 14

III. PRODUCCIÓN DE DIRECTORIOS Y ESTADÍSTICAS MULTIFUENTES 16

3.1. Directorios en esquema de datos maestros 16

3.2. Estadísticas multifuentes 19

3.3. El papel de las fuentes Big Data en iDatos 20

3.3.1. Creación o complementación de registros estadísticos 20

3.3.2. Incorporación de variables Big Data a otras fuentes 20

Bibliografía 23

(3)

I. MARCO NORMATIVO DEL SISTEMA DE DATOS INTEGRADOS

1.1. El Sistema de Datos Integrados en la legislación y planificación estadística

Las modificaciones operadas por la Ley 9/2014, de 6 de noviembre, de medidas tributarias, administrativas y sociales de Canarias sobre la Ley 1/1991, de 28 de enero, reflejan, en su artículo 9, la voluntad de que el Instituto Canario de Estadística sea el único Departamento con competencias en materia de estadísticas, sin perjuicio de la colaboración necesaria con el resto de Departamentos, con el objeto de optimizar al máximo los recursos materiales y personales disponibles en la Comunidad Autónoma de Canarias.

Así se desprende, no sólo de lo establecido en el Preámbulo, sino del contenido de artículos como el 6, sobre “Organización”; 28, “Estudios estadísticos”; 35, “Conservación de la información estadística”;

36, “Recepción, envío y depósito de información estadística” y 38, “Unidades de la estructura central y unidades estadísticas delegadas”.

A su vez la modificación del artículo 32 de la Ley 1/1991 de Estadística de la Comunidad Autónoma de Canarias indica que se constituirá un banco de datos administrativos para fines estadísticos, que se nutrirá prioritariamente de los ficheros administrativos de la Comunidad Autónoma de Canarias, a cuyo fin todos los departamentos deberán remitir al Instituto Canario de Estadística los ficheros administrativos de los que sean titulares y que sean necesarios para el ejercicio de la función estadística. Los referidos ficheros deberán adecuarse, para su remisión, a los requisitos técnicos que establezca el Instituto. Asimismo se señala que el banco de datos administrativos para fines estadísticos deberá facilitar la fusión de los ficheros para fines estadísticos.

Este banco de datos administrativos para fines estadísticos se crea para dar marco jurídico a algunos principios de calidad incluidos en el Código de la Buenas Prácticas de la Estadísticas Europeas, regulado en el artículo 11 del Reglamento (CE) No 223/2009 del Parlamento Europeo y el Consejo relativo a la estadística europea:

1. En su principio 8 relativo procedimientos estadísticos adecuados, especifica que: “Las estadísticas de calidad se apoyan en procedimientos estadísticos adecuados, aplicados desde la recogida de los datos hasta la validación de los mismos.”

2. En el principio 9 sobre la carga no excesiva a los encuestados, se especifica que: “La carga de respuesta es proporcionada en relación con las necesidades de los usuarios y no es excesiva para los encuestados. Las autoridades estadísticas controlan la carga que supone responder a la encuesta y fijan objetivos para reducirla progresivamente.”

(4)

3. Finalmente, el principio 10 sobre la relación coste/eficacia, establece que “los recursos se cutilizan eficientemente” estableciendo, también, un indicador de cumplimiento.

En la misma dirección, en el articulado del Plan Estadístico 2018-2028 (PEC-22) se indica que, en la definición y desarrollo del Plan, se hará una previsión adecuada de recursos y el uso eficaz de los mismos para obtener la información necesaria con la calidad requerida por los usuarios al menor coste posible. Para ello se utilizarán, como fuentes prioritarias de las operaciones estadísticas del Plan, los ficheros de datos administrativos y se realizan esfuerzos proactivos para mejorar el potencial estadístico de los datos administrativos y limitar el recurso a encuestas directas.

Esta posición se refuerza en las Líneas Estratégicas del PEC-22, que en su Directriz 4.1. Uso de fuentes administrativas y fuentes Big Data públicas o privadas indica que la evolución experimentada en los últimos años en la disponibilidad de datos ha de aprovecharse en la elaboración de las operaciones del Plan Estadístico de Canarias 2018-2022. Estableciendo además que los métodos tradicionales de obtención de información primaria han de combinarse con estas nuevas fuentes de datos de la mejor manera posible, en aras a reducir la carga de los informantes, abaratar el coste de las estadísticas y, en muchos casos, a disponer de indicadores más rápidos. Por lo tanto, la potenciación del uso de registros administrativos y las bases de datos masivos (Big Data) serán los dos bloques fundamentales de fuentes alternativas y complementarias a la obtención tradicional de la información, y se deberán ejecutar las actuaciones jurídicas, tecnológicas, procedimentales y formativas necesarias para el despliegue de esta directriz.

Esta posición se encuentra alineada con la European Statistical Vision 2020, elaborada por el European Statistical System, que entre sus visiones afirma que: “Basamos nuestros productos y servicios estadísticos tanto en encuestas tradicionales como en nuevas fuentes, incluyendo datos administrativos, datos geoespaciales y, cuando sea posible, fuentes Big Data”.

A su vez, las líneas estratégicas del PEC-22, en su Directriz 4.2. Integración de fuentes de datos, estadísticas multifuentes y sistema de datos integrados, establece que el banco de datos se elabora a fin de mejorar la eficiencia de la actividad estadística de interés de la Comunidad Autónoma de Canarias y para su desarrollo durante la ejecución del Plan Estadístico de Canarias 2018-2022 se impulsará el Sistema de Datos Integrados (iDatos); indicando dos características claves del sistema:

1. Debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas.

(5)

2. Debe facilitar la obtención de estadísticas espaciales, mediante la georreferenciación de la información dentro de un Marco de Estadística Espacial de Canarias alineado con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI. United Nations Expert Group on the integration of Statistical and Geospatial Information).

1.2. El Comité Técnico del Sistema de Datos Integrados

Para el desarrollo del artículo 32 de la Ley 1/1991 y de su extensión en las líneas estratégicas del Plan Estadístico de Canarias se ha creado, mediante Resolución del Director del ISTAC, el Comité Técnico del Sistema de Datos Integrados para fines estadísticos (iDatos) y el impulso de las estadísticas basadas en fuentes administrativas, con los siguientes objetivos:

1. Definir y desarrollar, técnica y normativamente, el Sistema de Datos Integrados.

2. Elaborar e implementar un marco de calidad de fuentes administrativas para fines estadísticos.

3. Inventariar fuentes de información administrativa para uso estadístico. Apoyar en el desarrollo de un gestor de inventario de fuentes de información administrativa para fines estadísticos, integrado en la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos) y definición de los procedimientos asociados.

4. Elaborar e implementar un marco de trabajo en geoestadística.

5. Incorporar estrategias, procedimientos y tecnologías de georreferenciación, deduplicación y enlazamiento de ficheros en un entorno integrado de datos estadísticos de origen administrativo.

6. Definir estrategias, normas, procedimientos y buenas prácticas de uso de ficheros administrativos para fines geoestadísticos.

7. Incorporar procedimientos y tecnologías de control de la confidencialidad y el secreto estadístico.

(6)

II. ORGANIZACIÓN Y GESTIÓN DE LA INFORMACIÓN DEL SISTEMA

2.1. Los esquemas-tipo del entorno repositorio del Banco de Datos

La arquitectura del banco de datos del Instituto Canario de Estadística (ISTAC) está dirigida al procesamiento supervisado de datos por lotes. Esta arquitectura es similar a las planteadas en otras Oficinas Estadísticas y contrasta con las actuales arquitecturas Lambda o Kappa de procesamiento ¹ automático de Big Data tanto en modo batch como en streaming de datos.

● Entornos de recepción, captura y prealmacenamiento: Los entornos de recepción, captura y prealmacenamiento de datos son entornos donde se almacenan y catalogan previamente los inputs del banco de datos. Estos entornos pueden ser tecnológicamente variados, desde base de datos SQL, como no-SQL o servidores de ficheros. Además pueden estar soportados o no por sistemas de gestión (por ejemplo LimeSurvey o Profesionales del Turismo).

1Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016.

(7)

● Entorno repositorio: El entorno repositorio es un entorno de base de datos, donde se almacenan las cartografías, los microdatos y los macrodatos que son el resultado final de procesos de tratamiento generadores de un cambio de naturaleza de los mismos. El entorno repositorio se organiza en esquemas tipo, según la naturaleza de los ficheros que contiene, y estos esquemas se agrupan en tres tipos de niveles según almacenen cartografías, microdatos o macrodatos.

● Entornos computacionales: Los entornos computacionales son entornos para el procesamiento eficiente de datos y su objetivo es el cambio de naturaleza de un fichero de datos. Pueden existir distintos entornos computacionales según los requerimientos de cálculo y los requerimientos tecnológicos exigidos por los programas de computación estadística. A su vez estos entornos pueden también organizarse en esquemas tipo según la fase en la que se aborda un tratamiento.

● Entornos analíticos: Los entorno analíticos son entornos para el análisis exploratorio de datos. Estos entornos requieren acceso al entorno repositorio, o también necesitan de copias o transformaciones de datos para su función analítica.

● Entorno de difusión: No se trata de un entorno en sí mismo, sino de una capa de servicios web para la difusión de datos y cartografía.

Como decíamos, el entorno repositorio se organiza en esquemas-tipo, según la naturaleza de los ficheros que contiene, y estos esquemas se agrupan en tres tipos de niveles según almacenen cartografías, microdatos o macrodatos. Este repositorio es un repositorio de base de datos relacional (PostgreSQL) con extensión SIG (PostGIS), que permite tanto el almacenamiento de objetos cartográficos como la realización de procesamiento geográfico. Los esquemas-tipo sobre los que trabaja el Sistema de Datos Integrados son:

- Raw Cartography (RC) - Support Cartography (IGS)

- Geographic Information Reference (IGR) - Raw Data (RD)

- Master Data (ID)

El sistema de coordenadas en la Infraestructura de Datos y Metadatos Estadísticos de Canarias (eDatos) es el WGS84 (World Geodetic System 1984) que significa Sistema Geodésico Mundial 1984 y es el sistema es en el que se basa el Sistema de Posicionamiento Global (GPS). El WGS84

(8)

es un sistema de coordenadas geográficas mundial que permite localizar cualquier punto de la Tierra sin necesitar otro de referencia, lo que facilita el almacenamiento normalizado de información geográfica dentro de eDatos. La información geográfica se almacena en todo los esquemas tipo, en WGS84, según las siguientes distribución:

1. Las cartografías se almacenan en los esquemas de cartografías 2. Las georreferencias se almacenan es los esquemas de microdatos

3. Los geocódigos se almacenan en los esquemas de microdatos y macrodatos

Grupo Tipo de datos Descripción

Cartografía Raw Cartography (RC)

Esquemas de cartografía en crudo, con sólo tratamiento de normalización.

Support Cartography (IGS)

Esquemas de cartografía de soporte. En estos esquemas se almacenan cartografías normalizadas y depuradas, utilizadas para procesamiento y análisis espacial.

Geographic Information Reference

(IGR)

Esquemas de cartografía de referencia. En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su uso como entidades geográficas de difusión estadística. En este caso se almacenan distintas geometrías e información auxiliar.

Public Cartography

(PC) Esquemas de cartografía estadísticas de uso público.

En estos esquemas se almacenan las cartografías públicas para su uso como entidades geográficas de difusión estadística (IGR) y otras cartografías almacenadas en IGS que puedan ser de interés analítico.

Microdatos Raw Data (RD)

Esquemas de microdatos en crudo, con solo tratamiento de normalización.

Todo fichero se georreferencia desde su incorporación al Banco de Datos.

Master Data (ID)

Esquemas de microdatos maestros, donde se almacenan los cuatro grandes directorios (direcciones, edificios y viviendas, población y hogares, empresas y establecimientos).

En el caso que nos ocupa es especialmente relevante el Directorio de Calles y Portales, donde se almacena la información base para la georreferenciacón.

Statistical Data

(SD)

Esquemas de microdatos estadísticos de uso interno, no anomimizados y con georreferencias.

(9)

Scientific Data (CD)

Esquemas de microdatos para fines científicos, de uso compartido para uso científico, con eliminación de identificadores y otras anonimizaciones indirectas suaves.

No se incluyen georreferencias, sólo geocódigos.

Public Data

(PD) Esquemas de microdatos públicos, con eliminación de identificadores y anonimizaciones indirectas fuertes.

No se incluyen georreferencias, sólo geocódigos.

Macrodatos MacroDataSet (MDS)

Esquemas de macrodatos estadísticos de uso interno, con almacenamiento de geocodigos.

DataSetCube (DSC)

Esquema público de cubos estadísticos (eDatos), con almacenamiento de geocodigos.

IndicatorsCube

(DSI) Esquema público de indicadores estadísticos (eDatos), con almacenamiento de geocodigos.

2.2. Organización de los microdatos para facilitar su integración

El artículo 32 de Ley 1/1991 indica que el banco de datos administrativos para fines estadísticos deberá facilitar la fusión de los ficheros para fines estadísticos. Además, las directrices estratégicas del Plan Estadístico de Canarias (2018-2022) señalan que el Sistema de Datos Integrados debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas.

Para facilitar la fusión de ficheros para fines estadísticos, los esquemas de microdatos dentro del Banco de Datos de la Infraestructura de Datos y Metadatos Estadísticos de Canarias se organizan en diferentes tipos de tablas, que podríamos categorizar en tres tipologías: datos, metadatos y relaciones.

Grupo Tablas tipo Descripción

Datos Datos

(DAT)

Tablas de almacenamiento de microdatos en un momento (t)

Georreferencias (GEO)

Tablas de almacenamiento de georreferencias de las observaciones de una tabla de microdatos en un momento t.

Datos longitudinales (LON)

Tablas de almacenamiento de identificadores normalizados de una unidad de observación a lo largo de un periodo de tiempo.

(10)

Metadatos Diseño de registro (DSD)

Tabla de almacenamiento del diseño de registros explicativo de un conjunto de tablas de datos. Entre otra información se almacena también las referencias (URL) a los codelist utilizados, que se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas.

Registro de datos (REG)

Tabla de registro de tablas de datos y su relación con el DSD explicativo.

Extensiones de códigos (CLE)

Los codelist de las tablas de microdatos, se almacenan y gestionan en el Bando de Metadatos, siendo accesibles mediante APIs internas o externas. Cuando los codelist necesitan extensiones, o se requieren codelist especiales, éstos se almacenan en este tipo de tablas.

Relaciones Relaciones entre unidades de información

(URD)

Tablas de almacenamiento de las relaciones, internas o externas, de las observaciones de una tabla de microdatos con otros microdatos.

Como vemos, el almacenamiento de las relaciones dentro de los esquemas de microdatos se realiza en tablas (URD) distintas al almacenamiento de los datos (DAT), permitiendo almacenar para cada fichero de datos el conjunto de relaciones que se establezcan con otros ficheros de datos. Este modo de organización y gestión de la información permite:

1. Flexibilidad:Las cargas de microdatos se realizan sin la necesidad de disponer previamente de los enlazamientos.

2. Simplificación: Los procedimientos de enlazamiento y almacenamiento de relaciones se realizan cuando se necesiten, sin tener la necesidad de definirlos a priori.

3. Independencia: Los procesos de generación y carga de datos de relaciones son independientes de la normalización y generación de los ficheros DAT.

4. Seguridad: Disponer las tablas DAT separadas pero vinculadas permite gestionar con mayor facilidad los permisos de accesos a esos datos mediante: (a) Gestionando los accesos a las tablas URD (b) Gestionando los acceso a otras tablas DAT, GEO o LON.

(11)

Ejemplo de tipos de tablas en un esquema-tipo de microdatos

Las tablas clave para la elaboración de estadísticas multifuentes son las tablas URD. Las tablas URD son tablas de relaciones, en las que establecen las relaciones entre las observaciones de un fichero DAT con otras unidades de información en otras tablas tanto de tipo DAT como GEO o LON.

Además estas relaciones pueden ser dentro del mismo esquema de datos (endógenas) como con otros esquemas distintos (exógenas).

Diseño de registro de una tabla URD en un esquema de microdatos

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local marcatiempo Fecha de creación Identificadores de

enlazamiento uuid_a UUID de la observación que se complementa stid_a STID de la observación que se complementa uuid_b UUID de la observación que aporta información

complementaria

(12)

stid_b STID de la observación que aporta información complementaria

Descripción de la relación

rel_type Tipo de relación según lista controlada (code_list).

GEOREF: Complemento de información georreferencial.

GEOCOD: Relación de pertenencia a una geometría de IGR.

SOURCE: Fuente de información primaria, LON: Relación longitudinal. TRACE: Relación de la observación con otra observación en otra tabla de otro esquema.

rel_description Descripción del tipo de relación

Descripción del enlazamiento

link_type Tipo de enlazamiento según lista controlada (code_list).

RL_DETERMINISTIC: Record Linkage determinístico.

RL_PSEUDODETERMINISTIC: Record Linkage determinístico parcial. RL_PROBABILISTIC: Record Linkage probabilístico.

STATISTICAL_MATCHING: Statistical Matching.

RL_INHERITED: Heredado.

link_description Descripción del tipo de enlazamiento

link_quality Descripción de la calidad del enlazamiento

linl_quality_rank Clasificación de la calidad del enlazamiento: MUY_ALTA, ALTA, MEDIA, BAJA, MUY_BAJA

Como norma general en el Banco de Datos cualquier observación (fila) que se carga tiene cuatro identificadores:

1. Identificador único universal (uuid) 2. Esquema tabla (stid)

3. Identificador único local (luid) 4. Fecha de creación (marcatiempo)

En las tablas URD se almacenan las relaciones entre observaciones entre un fichero de datos origen (DAT_a) y otro de destino (DAT-b) a través de sus UUID y STID:

1. uuid_a: UUID de la observación que se complementa 2. stid_a: STID de la observación que se complementa

3. uuid_b: UUID de la observación que aporta información complementaria 4. stid_b: STID de la observación que aporta información complementaria

(13)

2.3. Organización de la información geográfica para facilitar la estadística espacial Las líneas estratégicas del PEC-22, en su Directriz 4.2. establecen que el Sistema de Datos Integrados debe facilitar la obtención de estadísticas espaciales, mediante la georreferenciación de la información dentro de un Marco de Estadística Espacial de Canarias alineado con el Global Statistical Geospatial Framework elaborado por el Grupo de Expertos de Integración de Información Estadística y Geoespacial de Naciones Unidas (UN EG-ISGI. United Nations Expert Group on the integration of Statistical and Geospatial Information). Para conseguir este objetivo se han tenido en consideración los siguientes elementos:

1. Almacenamiento en los esquemas-tipo de Información Geográfica de Referencia (IGR) 2. Almacenamiento de georreferencias en los esquemas de microdatos

3. La geocodificación de georreferencias

2.3.1. Almacenamiento en los esquemas-tipo de Información Geográfica de Referencia (IGR) En estos esquemas se almacenan cartografías normalizadas, transformadas y depuradas, para su uso como entidades geográficas de difusión estadística. En los esquemas cartográficos IGR la información espacial se almacena en tablas GEO según las siguientes características:

1. Identificadores únicos según estándar del banco de datos: identificador único universal (UUID), identificador único local (LUID), identificador de esquema y tabla (STID) y marca de tiempo (TIMESTAMP).

2. Información geográfica de varias granularidades homogéneas en una misma tabla, por ejemplo las diferentes mallas (1000 * 1000, 500 * 500, 250 * 250, 100 * 100) o las delimitaciones cartográficas básicas de Canarias (Islas, comarcas y municipios), generalmente asociadas a un CodeLIst geográfico dentro de eDatos (por ejemplo en este último caso al CL_AREA_ES28).

3. Se almacena el geocódigo (var_element) identificador único dentro de un polígono dentro de eDatos y además un geocódigo según un CodeList de referencia.

4. Se almacenan distintas geometrías topológicamente depuradas: detallada, generalizada y centroides.

5. Se incluyen diferentes características geométricas: longitud para las líneas, superficie y perímetro para los polígonos.

(14)

2.3.2. Almacenamiento de georreferencias en los esquemas de microdatos

Tal como señalamos anteriormente, los esquemas de microdatos dentro del Banco de Datos de la Infraestructura de Datos y Metadatos Estadísticos de Canarias se organizan en diferentes tipos de tablas, que podríamos categorizar en tres tipologías: datos, metadatos y relaciones.

El almacenamiento de las georreferencias dentro de los esquemas de microdatos se realiza en tablas (GEO) distintas al almacenamiento de los datos (DAT), y se vinculan entre si mediante las tablas de relaciones (URD).

Las tablas GEO son tablas de portales, en las que se almacenan los datos normalizados y no normalizados de la identificación literal de un portal, así como su latitud y longitud en el sistema de referencias WGS84, y los identificadores que relacionan ese punto con un punto del Directorio de Calles y Direcciones que forman parte del conjunto de directorios maestros del Sistema de Datos Integrados y que se almacena en esquema-tipo ID de la Infraestructura de Datos y Metadatos Estadísticos de Canarias.

Diseño de registro de una tabla GEO en un esquema de microdatos

Bloque Variable Descripción

Identificadores uuid Identificador único universal

stid Esquema tabla

luid Identificador único local marcatiempo Fecha de creación Literales de dirección

del portal

tvia Tipo de vía

cvia Código de vía

nvia Nombre de vía

numer Número

codmun Código de municipio

nommun Nombre de municipio

direccion Dirección: tvia+nvia+numer+nommun

Georreferencias geom Punto

longitud Longitud

(15)

latitud Latitud

Relación con las tablas maestras de portales (Directorio de portales)

uuid_id Relación con el Directorio de Portales: UUID de la tabla IDT en el esquema C00047A_ID

stid_id Relación con el Directorio de Portales: Por ejemplo C00047A_ID.IDT_NOMEPORTAL20170101_V01

2.3.3. La geocodificación de georreferencias

El Sistema de Georreferenciación y Geocodificación está enumerado en el principio primero del Marco de Estadística Espacial de Canarias. La finalidad de este principio es poder dotar de representación espacial a las unidades de información estadística de manera que puedan ser integradas en análisis espaciales. Este proceso se denomina de forma genérica como georreferenciación o referenciación espacial.

● La georreferenciación, o referenciación espacial, es el proceso de referenciar datos contra un sistema de coordenadas geoespacial conocido, ajustándose a puntos conocidos en el sistema de coordenadas, de manera que los datos pueden ser visualizados, procesados, consultados y analizados junto con otros datos geográficos.

● La geocodificación es el proceso de asignación de un código geográfico a una unidad de análisis, asociandola a una línea o polígono georreferenciado. A efectos del Marco de Estadística Espacial de Canarias, la geocodificación se define como el proceso de dotar de dimensión espacial a las unidades de registro estadístico de manera que puedan ser utilizadas en análisis espaciales. El Sistema de geocodificación desarrollado en el Marco de Estadística Espacial de Canarias distingue entre la geocodificación de literales y la geocodificación de georreferencias. Este sistema facilita el análisis geoestadístico mediante el uso de polígonos.

La geocodificación de georreferencias asigna a un punto los geocódigos de los polígonos a los que pertenece dentro de una colección de polígonos almacenados en un esquema de información geográfica de referencia IGR o información geográfica de soporte IGS. Los inputs de este proceso son dos tablas GEO, una con las referencias (x,y) asociadas a los microdatos, y otra con las geometrías de los polígonos almacenados en IGR o IGS. El resultado es una tabla URD en la que se relacionan (rel_type = GEO) los UUID de cada referencia con los UUID de los polígonos a los que pertenece.

(16)

El procedimiento de geocodificación se resuelve mediante consultas geográficas entre los campos geométricos almacenados en PostGIS. Para esto disponemos de una macro SAS, que ejecuta las consultas en R, y que permite obtener el geocódigo de pertenencia de un punto a un polígono en un esquema IGR o IGS. Una vez obtenido el geocódigo se puede realizar análisis espacial por polígonos.

Población de Santa Cruz de Tenerife según diferentes análisis poligonales

(17)

III. PRODUCCIÓN DE DIRECTORIOS Y ESTADÍSTICAS MULTIFUENTES

3.1. Directorios en esquema de datos maestros

El Plan Estadístico de Canarias 2018-2022 (PEC-22) que impulsa el Sistema de Datos Integrados (iDatos), enumera el conjunto de directorios que como datos maestros forman parte del mismo:

Directorios Códigos Descripción

Lugares C00047A Directorio de Calles y Direcciones

C00113A Directorio de Puntos de Interés Turístico (PIT) Edificios, viviendas y

locales (DEV)

C00111A Directorio de Edificios, Viviendas y Locales C00111B Directorio de Viviendas Turísticas (VITUR) Población y hogares

(DPH) C00063A Directorio de Población y Hogares Empresas y

establecimientos (DUE)

C00021A Directorio de Unidades Económicas (DUE)

C00021B Directorio de Alojamientos Turísticos Colectivos (ALOJATUR) C00021C Directorio de Establecimientos de Alimentación y Bebidas

(ALIMERCA)

C00021D Directorio Especializado de Unidades Económicas de la Industria C00021E Directorio Especializado de Unidades Económicas de la Energía C00021F Directorio Especializado de Unidades Económicas del Sector

Comercial

C00021G Directorio Especializado de Unidades Económicas del Sector Primario

Para la elaboración de estos directorios se utilizarán tant o registros administrativos como las bases de datos masivos (Big Data), de acuerdo con la Directriz Estratégica 4.1. del PEC-22 que indica que la evolución experimentada en los últimos años en la disponibilidad de datos ha de aprovecharse en la elaboración de las operaciones del Plan. Los conceptos básicos utilizados en la producción de directorios son los siguientes:

1. Directorio: Colección de registros conceptualmente relacionados

2. Registro: Colección de ficheros relacionados con una de unidad de análisis 3. Capas: Colección de ficheros de un registro según funcionalidad de integración 4. Variables nucleares: Variables clave de un registro

5. Variables normalizadas: Variables que no siendo claves se quieren normalizar en iDatos

(18)

6. Variables de entidades relacionadas: Identificadores que vinculan unidades de un registro con las de otro registro

Los directorios se almacenan dentro del Banco de Datos en esquemas tipo ID de microdatos maestros. El conjunto de directorios se agrupan en cuatro grandes bloques interrelacionados, alimentándose de diferentes fuentes tanto administrativas como Big Data.

Relaciones entre los cuatro bloques de directorios maestros

En cada bloque de directorios maestros existe un directorio principal y subdirectorios relacionados, por ejemplo el Directorio de Alojamientos Turísticos Colectivos (ALOJATUR) es un subdirectorio del Directorio de Unidades Económicas (DUE). Dentro de cada directorio nos encontramos con los registros, que son una colección de ficheros relacionados con una de unidad de análisis. Algunos ejemplos de registros son

Directorio Descripción Registro

C00063A Directorio de Población y Hogares Registro de población C00063A Directorio de Población y Hogares Registro de hogares C00047A Directorio de Calles y Direcciones Registro de portales C00111A Directorio de Edificios, Viviendas y Locales Registro de viviendas C00021A Directorio de Unidades Económicas (DUE) Registro de empresas C00021A Directorio de Unidades Económicas (DUE) Registro de establecimientos

(19)

Para cada registro almacenado en un esquema de microdatos maestros distinguimos tres clases de tablas DAT: los de capa fuente (IDF), los de capa de momento (IDT) y los de capa longitudinal.

Tipos de tablas DAT en un esquema-tipo de microdatos maestros (ID)

Estas categorías de DAT se asocian a la construcción de un determinado registro dentro de un directorio. La estrategia de construcción de los registros es siempre similar: Se construyen registros por momentos de referencia (IDT) a partir de una fuente básica que se enriquece con otras fuentes auxiliares (IDF), para posteriormente enlazar las mismas unidades a lo largo del tiempo mediante tablas IDL.

Tablas Descripción

IDL_POBLACION Tabla de vinculación de una persona a lo largo de diferentes realizaciones (t) del registro

IDT_POBLACION Tabla de identificación única de una persona en la realización del registro en un momento (t)

IDF_POBLACION Tabla de alimentación del registro a partir de la localización de personas en diferentes microdatos en crudo (RD)

Algunas característica de esta aproximación en la construcción de los registros son las siguientes:

1. Genérico: Aplicable a cualquier registro

2. Escalabilidad vertical: Escalabilidad en capas, obteniendo valor desde un principio 3. Escalabilidad horizontal: Escalabilidad en la vinculación de registros

4. Flexibilidad: Los métodos de enlazamiento, la variables nucleares y las variables normalizadas pueden cambiar entre diferentes realizaciones del registro.

(20)

3.2. Estadísticas multifuentes

De acuerdo con las Directrices estratégicas del Plan Estadístico de Canarias 2018-2022, el Sistema de Datos Integrados debe permitir la producción de estadísticas multifuentes mediante la elaboración de datos maestros organizados en directorios y registros que faciliten el enlazamiento de fuentes diversas. En la actualidad el ISTAC se encuentra desarrollando dos proyectos de estadísticas laborales basadas en el Sistema de Datos Integrados:

1. Estadística de Población Activa Registrada (EPA-Reg) 2. Estadística de Inserción Laboral

La realización de estas operaciones estadísticas se basa en el tratamiento y la utilización mayoritaria de fuentes administrativas, sin recogida directa de información. La estrategia de desarrollo se fundamenta en la recogida, integración y explotación de información individual detallada en materia de actividad económica, debidamente georreferenciada y con una periodicidad trimestral. A tal fin se precisa información de origen administrativo, a nivel de registro individual e identificado. Esta información proviene de diversas fuentes que son depuradas e integradas de forma que se complementen unas con otras y proporcionen una información coherente y de calidad.

Ecosistema de integración de fuentes administrativas para la elaboración de EPA-Reg

(21)

3.3. El papel de las fuentes Big Data en iDatos

3.3.1. Creación o complementación de registros estadísticos

Varias Oficinas de Estadística utilizan fuentes de datos administrativas para crear registros estadísticos. En estos registros se enumeran poblaciones completas de unidades de análisis tales como el directorio estadístico de empresas o el directorio de población y hogares; y en su alimentación también podrían utilizarse las fuentes Big Data.

Por ejemplo, para la alimentación del registro de establecimientos asociados al registro de empresas podría aprovecharse la información aportada por fuentes Big Data tales como Google Place, Facebook, FourSquare, OpenStreetMap, etc.

3.3.2. Incorporación de variables Big Data a otras fuentes

Una de las características de las fuentes Big Data es su capacidad para obtener datos de eventos difícilmente recopilables por los métodos tradicionales. Por lo tanto estas fuentes aportan información complementaria a las fuentes usadas habituales en la estadística pública.

Ecosistema multifuentes para la modernización de las estadísticas sociales

(22)

Esta complementariedad da lugar a un ecosistemas de fuentes diversas al servicio de la mejora de las estadísticas públicas en una dimensión determinada. Por ejemplo, el documento “The Modernisation of European Social Statistics” ² recoge la incorporación de las fuentes Big Data dentro de un ecosistema de fuentes diversas para la elaboración de las estadísticas sociales en Europa.

La integración de las fuentes Big Data en este ecosistema se puede realizar por dos vías:

1. Enlazamiento unidad a unidad (Record Linkage) 2. Emparejamiento estadístico (statistical matching)

Respecto al enlazamiento unidad a unidad, además de los procedimientos utilizados tradicionalmente, cabe destacar que genéricamente las fuentes Big Data son fuentes georreferenciadas. Por lo tanto las georreferencias son información que se presentan en este contexto como información con un alto potencial para el enlazamiento y la deduplicación de fuentes.

La complementariedad requiere en algunos casos la integración de las fuentes Big Data con otras fuentes de datos tradicionalmente usadas en la estadística pública. El emparejamiento estadístico (statistical matching) es un enfoque basado en modelos para proporcionar información conjunta sobre variables e indicadores recolectados a través de múltiples fuentes . Los beneficios potenciales de este enfoque radican en la posibilidad de mejorar el uso complementario y el potencial analítico de las fuentes de datos existentes.

La mayoría de las veces el objetivo de un ejercicio de emparejamiento es ampliar el alcance de la información, pero también se han utilizado para alinear las estimaciones observadas en múltiples encuestas y para mejorar la precisión de estas estimaciones mediante la integración con estudios más amplios. Existen dos enfoques respecto al emparejamiento estadístico:

1. El enfoque macro se refiere a la identificación de cualquier estructura que describa relaciones entre las variables no observadas conjuntamente en las fuentes de información que se desean integrar, tales como distribuciones conjuntas, distribuciones marginales o matrices de correlación (D'Orazio, 2006) . ³

2. El enfoque micro se refiere a la creación de un archivo completo de microdatos donde los datos de todas las variables están disponibles para cada unidad. Esto se logra mediante la generación de un nuevo conjunto de datos a partir de dos conjuntos de datos, usando para ello algunas variables comunes como variables bisagra.

2 Reis, Fernando. “The Modernisation of European Social Statistics.” Rome: Eurostat, 2012.

https://www.destatis.de/EN/AboutUs/Events/DGINS/Document_PaperEUROSTAT.pdf?__blob=publicationFile.

3 D’Orazio, Di Zio, and Scanu, Statistical Matching: Theory and Practice.

(23)

La idea de la que parte el micro-emparejamiento estadístico es que, aunque las unidades de observación de las fuentes de datos provienen de la misma población, por lo general no se superponen. En ese sentido el micro-emparejamiento estadístico identifica y vincula registros de diferentes fuentes que corresponden a unidades similares. Esta es la diferencia básica en comparación con el Record Linkage, donde es necesario que las unidades incluidas en los ficheros datos se solapen y cuyo objetivo es enlazar la misma unidad en las distintas fuentes. Por lo tanto, el record linkage trata con unidades idénticas, mientras que el statistical matching trata de unidades similares.

En la práctica, el procedimiento de emparejamiento puede entenderse como un problema de imputación de las variables de una encuesta donante a una encuestas de receptores. Supongamos que las variables Y, Z se recogen a través de dos muestras diferentes tomadas de la misma población. Asimismo las variables X se recogen en ambas muestras y éstas están correlacionadas con Y y Z.

Microintegración de fuentes de datos

Fuente A (donante) Fuente B (receptora) Fuente B (ampliada)

X, Y X, Z X, , Z

La relación entre la variables comunes X con las variables observadas Y se utiliza para explorar la fuente de datos donante y determinar la imputación de las unidades del conjunto de datos receptor.

Así se genera un conjunto de datos sintéticos con información completa sobre X, Y y Z.

Como vemos, la microintegración es una estrategia estupenda para incorporar información de las fuentes Big Data a las fuentes tradicionales. Este tipo de ejercicio se ha realizado previamente con registros administrativos y encuestas, sin embargo aún no se conocen trabajos similares aplicados a las fuentes Big Data como fuentes donantes.

(24)

Bibliografía

Andreas Borg and Murat Sariyar (2016). RecordLinkage: Record Linkage in R. R package version 0.4-10.

https://CRAN.R-project.org/package=RecordLinkage

Berson, Alex, and Lawrence Dubov. Master Data Management and Data Governance. 2nd ed. New York:

McGraw-Hill, 2011.

Data Administration Management Association.The DAMA Guide to the Data Management Body of Knowledge:

(DAMA-DMBOK Guide). Edited by Mark Mosley, Michael Brackett, Susan Earley, and Deborah Henderson. First edition. Bradley Beach, NJ: Technics Publications, LLC, 2010.

Borgman, Christine L. Big Data, Little Data, No Data: Scholarship in the Networked World. Cambridge, Massachusetts: The MIT Press, 2015.

Jeff Leek. The Elements of Data Analytic Style. A Guide for People Who Want Analyze Data. Leanpub., n.d.

https://leanpub.com/datastyle.

Julien Forgeat. “Data Processing Architectures – Lambda and Kappa.” Ericsson Research Blog. Accessed October 24, 2016.

https://www.ericsson.com/research-blog/data-knowledge/data-processing-architectures-lambda-and-kappa/.

Kitchin, Rob. The Data Revolution: Big Data, Open Data, Data Infrastructures & Their Consequences. Los Angeles, California: SAGE Publications, 2014.

Marz, Nathan, and James Warren.Big Data: Principles and Best Practices of Scalable Real-Time Data Systems.

Shelter Island, NY: Manning, 2015.

Shoshani, Arie. “OLAP and Statistical Databases: Similarities and Differences,” 185–96. ACM Press, 1997.

doi:10.1145/263661.263682.

Ladley, John. Data Governance: How to Design, Deploy, and Sustain an Effective Data Governance Program.

Waltham, MA: Morgan Kaufmann, 2012.

Laan, P. van der (2002): Creating a Social Statistics Database in the Netherlands: Progress and Priorities. Papel presented for the secundo Seminar on Strategies for Social and Spatial Statistics, Copenhagen, Denmark, 5 september 2002.

Plotkin, David. Data Stewardship: An Actionable Guide to Effective Data Management and Data Governance.

Amsterdam ; Boston: Elsevier/Morgan Kaufman, 2014.

Seiner, Robert S. Non-Invasive Data Governance: The Path of Least Resistance and Greatest Success. Basking

Ridge, N.J.: Technics Pub., 2014.

http://search.ebscohost.com/login.aspx?direct=true&scope=site&db=nlebk&db=nlabk&AN=1005063.

Soares, Sunil. Chief Data Officer Handbook for Data Governance. Mc Press, 2015.

http://lib.myilibrary.com?id=709313.

Statistics NetherlAnd (2000) Special issue - Integrating administrative registers and households surveys.

Netherlands Office Sattistics vol.15

Sundgren, Bo, United Nations, United Nations, and Conference of European Statisticians, eds. Information Systems Architecture for National and International Statistical Offices: Guidelines and Recommendations.

Statistical Standards and Studies, no. 51. Geneva: United Nations, 1999.

https://www.unece.org/fileadmin/DAM/stats/documents/information_systems_architecture/1.e.pdf.

Swiss Federal Statistical Office. “Conceptual Architecture of the Statistical Information System at the Swiss Federal Statistical Office.” Swiss Federal Statistical Office, May 2007.

http://unstats.un.org/unsd/dnss/docViewer.aspx?docID=1564.

United Nations. “Guidelines for the Modelling of Statistical Data and Metadata.” United Nations, 1995.

https://www.unece.org/fileadmin/DAM/stats/publications/metadatamodeling.pdf.

(25)

Wickham, Hadley. “Tidy Data.” Journal of Statistical Software 59, no. 10 (2014). doi:10.18637/jss.v059.i10