Asegurando la Calidad del Dato en
nuestros entornos de BI
Mary Arcia
SQL PASS Venezuela
[email protected]
@maryarcia
https://ve.linkedin.com/pub/mary-arcia/
Blog: geeks.ms/blogs/marcia
Organiza
Patrocinadores del SQL Saturday
Premier Sponsor
Gold Sponsor
AGENDA
Introducción a la calidad de datos
Calidad de datos en Poyectos de BI
Metodología de Calidad de Datos en BI
Capacidades de Data Quality Services
Proyectos de Data Quality Services
Qué es Calidad de Datos?
Algunos problemas
Nuestros envíos postales tienen un grado de
devolución muy alto.
Los datos de ventas no me cuadran.
El sistema está malo
Muchas personas
Por qué necesito calidad de datos?
Imprescindible para una toma de decisiones
correcta.
Pieza básica en la gestión de información
corporativa.
Impacto directo en el negocio.
ROI inmediato.
“Si los datos son la materia prima con la cual creamos la Información; entonces la confiabilidad de la
información depende directamente de la calidad de los datos utilizados para producirla”
A Quién afecta la falta de calidad de datos
Áreas Productivas del Negocio
Ventas no dispone de información correcta.
Marketing realiza segmentaciones erróneas,
campañas no eficientes.
Dirección toma decisiones basándose en
información errónea.
Atención al Cliente sufre y es causante a la vez de
la mala calidad de los datos.
Tecnología toma tiempos muy largos para la
culminación de los proyectos (Time To Market).
A
quién
afecta la falta de calidad….
Todo es Dinero
….
Caída en ventas
Baja la rentabilidad del negocio
Pérdida de clientes. Segmentación
Poco control sobre el gasto
Qué nos resuelve calidad de datos
Ahorra dinero.
Aumenta Ventas
Aumenta
rentabilidad del
negocio
Impacto en Múltiples Proyectos
En BI buenos datos….buenas decisiones
Análisis predictivo
MDM (visión única del cliente/proveedor/producto)
Migraciones: Sistema nuevo con datos buenos
(Garbage In/Garbage Out)
Cumplimiento de normativas y leyes
Ciclo de Vida en la Calidad de los datos
1.
Descubrir
2. Perfilar
3. Limpiar
4. Match
5.
Consolidar
6.
Monitorizar
Identificar y medir la calidad de los datos
Definir reglas y objetivos
de la calidad de los datos
Diseñar los procesos de mejora de la
calidad de los datos Matcheo de información y estadísticas Implementar los procesos de mejora de calidad Monitorear la calidad de los datos vs los objetivos
Dimensiones de la calidad de datos
Dimensión Qué mide?
Perfilado de columna
Cuáles son las caracteríticas físicas de los datos?
Relación Qué relación existe entre grupos de datos?
Redundancia Es un dato redundante?
Existencia Qué dato falta o no nos es útil?
Conformidad Qué dato está almacenado en formato no estándar?
Consistencia Qué datos aportan información no conflictiva?
Precisión Qué datos son incorrectos o están caducados?
Duplicados Qué datos o atributos están repetidos?
Integridad Qué información no está referenciada?
Rango Qué resultados, cálculos, valores están fuera de rango?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Existencia
Existencia
Existencia
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Conformidad
Conformidad El dato tiene un formato correcto?
Conformidad Conformidad
Conformidad
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Consistencia
Consistencia El dato tiene el formato correcto pero rompe las reglas de negocio
Consistencia
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Duplicidad Los datos aparecen varias veces? Coincidencia difusa
Duplicidad
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Integridad Las relaciones del dato son consistentes?
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Rango Se encuentran los valores entre rangos aceptables?
Rango Rango
Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Precisión El dato representa la realidad exacta? Son las fuentes verificables?
Precisión Precisión
DEMO
Qué es Data Quality Services?
Data Quality Services (DQS) es una
solución
basada en el conocimiento
de la calidad de datos
que permite a
los administradores de datos y
profesionales de IT la mejora de la
calidad de sus datos fácilmente.
En qué nos apoya Data Quality Services?
Conocimiento
Limpieza
Consolidación
Arquitectura de DQS
CLIENTE
Data Quality Services Client Componente Integration Services
SERVIDOR
DQS_MAIN DQS_PROJECT DQS_STAGINGArquitectura de DQS
Dominios Reglas de matching Dominios CompuestosBases de
Conocimiento
Dominio Reglas y Relacion es Valores Referencias ExternasBase de Conocimiento
ENTIDAD
Tarjetahabientes
Apellidos y
Nombres
Nacionalidad
Nro. Tarjeta
Tipo Producto
Limite de Crédito
Atributos
DQKB_Tarjetahabiente
Dominios
Tipo de Producto Límite de Crédito Nacionalidad 6 dígitos dentro de un rango Lista de Valores y correcciones Lista de Valores y correccionesDEMO
Proyectos DQS
Proyectos de Cleansing
Limpieza de
Datos
Partiendo de la Base de ConocimientoInformación
Extra
Sobre las decisiones que toma
Base de
Conocimiento
en la nube
Proyectos DQS
Proyectos de Matching
Creación de
Reglas
Política de comportamiento del motor DQSMatching
Lógica Difusa Agrega MetadatosExportación
Datos que quedan en el modelo
Ciclo de Vida de Proyectos BI sin DQ
Detectar
Orígenes
Información
Extra
Pruebas
de Carga
de Datos
Desarrollo
de
Informes
Pruebas y
cuadres
UAT
Aceptación FinalCiclo de Vida de Proyectos BI con DQ
Detectar
Orígenes
Información
Extra
Análisis de Perfilado de DatosProcesos
de Carga
Enriqueci
miento y
Matching
UAT
Aceptación Final Monitorear DQPruebas y
cuadres
Desarrollo
de
Informes
Impacto de DQ en Proyectos de BI
Aumenta la rapidez de implementación
Menor Time To Market del Proyecto
Menor esfuerzo en la fase de pruebas y UAT
Mejora la calidad de la información
decisiones
Genera origenes de datos de calidad para
Campañas
Mayor confianza y usabilidad de la aplicación
Mayor cumplimiento de expectativas y
[email protected] geeks.ms/blogs/marcia/ @maryarcia