Investigaci´ on - Ingesti´ on y an´ alisis de datos

5.3 Ingesti´ on y an´ alisis de datos

5.3.1 Investigaci´ on

Los datos se guardan en buckets. Cada bucket conceptualmente representa una clase. A cada bucket se le asocia una data tier que especifica la forma en que los objetos se almacenan y consultan, lo que permite cubrir distintos casos de uso considerando caracter´ısticas de acceso (ej. latencia, disponibi- lidad) y frecuencia (ej. contenido est´atico para una p´agina web o datos de auditor´ıa)

5.3.1.3 AWS Glue - Data Catalog

AWS Glue es un servicio para ETL (extracción, transformación y carga de datos) que facilita categorizar, limpiar, mejorar y mover los datos. Utiliza AWS Glue Data Catalog, que consiste en un repositorio centralizado de metadatos sobre los datos. Esta investigación se enfoca en este último componente. Glue Data Catalog. Tiene las siguientes caracter´ısticas:

Es un servicio serverless, por lo que no hay infraestructura para configurar o gestionar.

Est´a basado en una implementaci´on de Apache Hive Metastore.

Está compuesto por tablas que solo contienen metadatos, es decir informa- ción como el esquema de los datos, su ubicación, etc. La ubicación puede apuntar a distintos tipos de fuentes, entre ellas Amazon S3.

Las tablas pueden ser creadas en forma manual o en forma automatizada a trav´es de los AWS Glue Crawlers. ´Estos permiten encontrar datos nuevos y a partir de ellos inferir y actualizar los metadatos de las tablas.

Los AWS Glue Crawlers hacen uso de los Crawler Classifiers que contienen la especificaci´on de c´omo parsear los datos.

5.3.1.4 Amazon Athena

Es un servicio para consultas interactivas sobre los datos almacenados en Ama- zon S3 usando SQL est´andar. Tiene las siguientes caracter´ısticas:

Es un servicio serverless, por lo que no hay infraestructura para configurar o gestionar.

Las consultas se ejecutan sobre el esquema definido en las tablas de AWS Glue Data Catalog.

Está basado en una implementación de Presto que es un motor para consultas SQL y que soporta fuentes de datos con tamaños desdegigabytes apetabytes.

Escala autom´aticamente y el procesamiento es distribuido, dividiendo las consultas en consultas m´as simples que se pueden ejecutar en paralelo [16]

[17].

5.3.1.5 Amazon SageMaker Data Wrangler

Es una herramienta dentro de SageMaker Studio que facilita importar, preparar, transformar y analizar los datos. Est´a orientada a ser usada en forma visual y sin codificar (aunque permite incluirscripts en caso de ser necesario).

El flujo de datos se configura de manera visual indicando la cadena de pasos.

Estos pasos pueden ser de los siguientes tipos:

Importar datos: Permite importar datos desde Amazon S3, Amazon RedShift o Amazon Athena.

Transformación: Permite preparar los datos a través de operaciones como selección, limpieza, tratamiento de valores faltantes, ingenier´ıa de atributos sobre atributos de texto, fecha, etc. Otro tipo de transformación especial permite combinar las diferentes fuentes de datos a través de operaciones de join y concatenación.

An´alisis: Permite generar visualizaciones en forma de tablas, gr´aficos y re- portes.

En esta sección se hará foco en el análisis, ya que lo relativo a preparación, transformación y ejecución del flujo configurado se tratará en la sección Sección 5.4 Preparación y transformación de datos.

La herramienta permite generar diferentes visualizaciones con pocos clicks usando las visualizaciones built-in, as´ı como tambi´en generar visualizaciones per- sonalizadas.

Visualizaciones built-in:

Histogramas: Permite analizar la distribuci´on de cantidades seg´un un atributo espec´ıfico.

Scatter Plot: Permite analizar relaciones entre atributos.

Table Summary: Permite obtener métricas tales como máximos, m´ınimos, cantidades, desviación estándar, etc.

Quick Model: Permite evaluar la importancia de cada atributo, usando una t´ecnica que busca generalizar la idea de la importancia de Gini [18].

Target Leakage: Permite analizar si alg´un atributo est´a fuertemente corre- lacionado con la variable a predecir.

Bias Report: Permite obtener un reporte simplificado para analizar si existe alg´un tipo de sesgo en los datos. Internamente hace un uso b´asico de la herramienta SageMaker Clarify.

Visualizaciones custom: Permite incluir código para generar gráficos perso- nalizados mediante el uso de la librer´ıa Altair de Python [19]. Se accede a los datos a través de un dataframe de Pandas que SageMaker Data Wrangler deja accesible a través de una variable.

A continuaci´on se describen algunos aspectos importantes sobre el funciona- miento de los pasos de an´alisis:

Los an´alisis utilizan un tope de 100.000 filas. Esto facilita acceder al resultado de los mismos en pocos segundos sin la ejecuci´on de un job, pero tiene la limitante de que no se puede trabajar sobre cantidades absolutas.

Los análisis se pueden situar en cualquier ubicación del flujo de transforma- ción y análisis.

El an´alisis se realiza considerando todas las transformaciones anteriores al paso en la que se encuentra.

Como se indicó anteriormente, existen otras herramientas que permiten ha- cer análisis sobre los datos y que no se abordan en esta sección. Por ejemplo, SageMaker Autopilot tiene funciones para análisis de datos como se verá en la Subsubsección 5.8.1.2 SageMaker Autopilot. Otras se verán durante la POC de esta sección, como por ejemplo el uso de la librer´ıa aws-data-wrangler y el servicio AWS Glue Data Brew.

5.3.2 POC: Amazon S3, AWS Glue (Data Ca-

In document MODERACI ´ ON DE (página 36-40)