1
EVALUACIÓN DE CALIDAD DE
DATOS PARA APLICACIONES DE GESTIÓN DE ACTIVOS
SEPTIEMBRE 2020
Eloy Ernesto Rubí Sánchez
DIRECTOR DEL TRABAJO FIN DE MASTER:
Cristóbal Ruiz-Cárcel
El o y Er n es to R u b í Sá n ch ez
TRABAJO FIN DE MASTER
PARA LA OBTENCIÓN DEL
TÍTULO DE MASTER EN
INGENIERÍA INDUSTRIAL
II
RESUMEN
1 Introducción
El resumen que se recoge en este documento está organizado en diferentes apartados. En un primer apartado se aborda la introducción al caso, la definición del problema y los objetivos marcados. Posteriormente se resume el análisis llevado a cabo con relación al estado del arte de las distintas metodologías de valoración de calidad de datos, que deriva en el desarrollo de la metodología escogida y su implementación en el caso de estudio. Finalmente, se repasan los resultados obtenidos y se comentan las conclusiones, las limitaciones del proyecto y las líneas de trabajo futuro.
El presente trabajo forma parte de un proyecto más amplio que está llevando a cabo Babcock International en colaboración con la Cranfield Unviersity. Esta empresa está interesada en la calidad de los datos de las operaciones en el contexto de la Industria 4.0. Este proyecto aborda únicamente la evaluación de la calidad de los datos y deja para el futuro las mejoras, los costes o los tipos de sistemas de información.
1.1 Definición del problema
En el contexto de la gestión de activos hay momentos en que es necesario tomar decisiones importantes. La sustitución o el mantenimiento de un activo que envejece puede ser fundamental para una empresa en términos de presupuesto.
Por lo tanto, esta decisión debe basarse en razones sólidas, y éstas sólo pueden encontrarse en los datos.
Sin embargo, en muchos casos, en particular cuando los datos son manipulados por seres humanos, puede haber errores como inconsistencias, datos que faltan o inexactitudes. La calidad de los datos se convierte entonces en una cuestión esencial para asegurar que los problemas de los datos no comprometan los resultados de ningún análisis. Este proyecto tiene por objeto crear una metodología para evaluar y medir con precisión la calidad de los datos, asistiendo la decisión sobre la necesidad de depurar los datos antes de tomar
decisiones. Este estudio se centra en la medición y representación de la calidad de los datos.
1.2 Finalidad y Objetivos
El objetivo de este proyecto es desarrollar y validar una metodología en el contexto de la gestión de activos. Los objetivos específicos previstos para lograr este objetivo son:
1) Realizar un examen de la literatura sobre las metodologías de DQA existentes y estudiar las del ámbito de la gestión de activos. Se deben analizar los indicadores de calidad de datos y las TA más comunes para la selección de los más adecuados.
2) Desarrollar una metodología de evaluación de calidad de datos que especifique las técnicas de evaluación necesarias para evaluar la calidad de los datos, las dimensiones de calidad (DC) correspondientes y las métricas que se utilizarán para medir la calidad. Esta metodología se aplicará incluyendo las adaptaciones que requiera el socio industrial, centrándose en la medición y visualización de las diferentes DC.
3) Aplicación y evaluación de la metodología propuesta en un caso de estudio seleccionado a partir de un conjunto de datos de acceso público que tenga las características requeridas por el socio industrial en términos de estructura y complejidad. La metodología seleccionada debe entregar los correspondientes KPI y ser validada tanto numéricamente como con la aprobación del socio industrial.
2 Estado del arte
2.1 Metodologías de evaluación de calidad de datos
Existen numerosas metodologías que se ocupan de la evaluación de la calidad de los datos, y este número va en aumento debido al creciente valor de los datos.
Se ha realizado un estudio exhaustivo para encontrar la metodología más
IV apropiada para el caso de estudio de este proyecto. Los motores de búsqueda Scopus y ScienceDirect fueron las principales herramientas utilizadas para ello.
Como se explica más adelante, el caso de estudio de este proyecto es bastante peculiar y, por lo tanto, necesita una metodología de evaluación totalmente adaptada. El Hybrid Approach de los investigadores de la Universidad de Cambridge es una metodología muy interesante debido a sus grandes posibilidades de personalización. Este enfoque tiene por objeto crear una TE (técnica de evaluación) adaptada para cada estudio de caso estableciendo un conjunto de actividades. Estas actividades se han extraído de las principales TE de calidad de datos que ya se han presentado y posteriormente se han revisado y clasificado como recomendadas u opcionales.
2.2 Tipos de errores en los datos
Los errores de datos pueden encontrarse en la literatura junto con la limpieza de datos, que se define como el proceso de identificar y eliminar los errores de los conjuntos de datos. Uno de los errores más importantes de los datos son los valores perdidos (relacionados con la integridad).
Otro error común es la ausencia de accesibilidad, que puede definirse como la medida en que la información está disponible o es rápidamente recuperable. Los problemas identificados por Woodall son que la información no está consolidada, que está mal ubicada, que no es suministrada por terceros y que los datos son irrecuperables a partir de sistemas obsoletos.
Por otra parte, la coherencia puede ser un grave problema para los encargados de adoptar decisiones. Esto ocurre cuando dos personas diferentes insertan el mismo valor en dos formatos diferentes. Por ejemplo, para la misma cantidad de horas de trabajo, una persona puede introducir 0,5 días y otra 12 horas. Esto se suele abordar con la capacitación del personal, la comprensión y la apreciación de la forma en que sus acciones hacia los datos pueden afectar a la información de entrada y, por lo tanto, a las decisiones.
La exactitud, como la conformidad del valor registrado con el valor real, también genera controversias entre los diferentes modificadores de datos. Una precisión
deficiente puede deberse a errores humanos, ya sean intencionales o no. La introducción intencional de datos erróneos se debe normalmente a la ignorancia de los datos reales. La capacitación del personal es la clave para resolver este problema.
La respuesta a la pregunta "¿los datos se ajustan a las reglas?" pertenece a la validez, un QD que requiere el preajuste de ciertas reglas. Si los elementos no cumplen con ellas, entonces la validez del conjunto de datos se ve afectada.
Por último, la cantidad apropiada de datos es algo que hay que considerar si no se desea que los responsables de la toma de decisiones se sientan desbordados. En el campo de la gestión de activos, los informes sobre fallos en los activos son un gran ejemplo de demasiados datos que pueden tener consecuencias no deseadas.
3 Metodología
Este proyecto se ha abordado en 7 etapas diferentes que componen la metodología actual, como puede verse en la Figura 3-1.
Figura 3-1 Metodología del proyecto Estado del Arte
Selección Metodología
Selección Dataset
Desarrollo Algoritmos
Obtención KPIs
Valiadación
Análisis de Resultados 1
2
3
4
5
6
7
8 Discusión y Conclusiones
VI El análisis del estado del arte proporcionó información para la selección de la metodología de evaluación de calidad de datos más apropiada. La necesidad de un contexto y las metodologías más personalizadas fueron las barreras más altas a superar en el momento de la selección. La metodología requería la validación de un caso de estudio y, para evitar problemas de confidencialidad, se obtuvo un conjunto de datos de una base de datos de código abierto y se modificó a los efectos de la evaluación. Por último, la elaboración de los guiones dio lugar a la obtención de diferentes indicadores clave de rendimiento (KPI) y al análisis posterior, que condujo al debate y las conclusiones del proyecto.
La selección comenzó con la identificación de las principales características que debía incluir la metodología de evaluación, según se discutió con el patrocinador del proyecto. Estas características eran:
- Adaptabilidad: tenía que ser flexible para poder aplicar las variaciones adecuadas.
- Propósito general: no debía estar orientada específicamente a ningún campo; sólo podía considerarse si estaba orientada a los sistemas de fabricación.
- Enfoque en etapas específicas: debía centrarse en las etapas de evaluación y medición.
La metodología seleccionada para este proyecto es el Hybrid Approach. El punto más fuerte de esta metodología es su adaptabilidad al estudio de casos de interés. Este enfoque permite la configuración completa de la evaluación desde cero, además de establecer las actividades de evaluación como resultado de una investigación rigurosa realizada previamente. Por último, esta metodología de evaluación ha sido validada por Babcock International mediante un cuestionario.
El resultado de la aplicación de esta metodología se puede observar en la Figura 3-2.
Figura 3-2 Aplicación de la metodología Hybrid Approach
Los algoritmos para la preparación, contaminación y evaluación de la calidad del conjunto de datos se han desarrollado en el lenguaje R por medio de la plataforma R Studio. Este lenguaje de programación es muy poderoso en el campo de la estadística y los gráficos, y su naturaleza de código abierto asegura el acceso a un gran número de tutoriales y funciones.
El caso de estudio seleccionado es un conjunto de datos que se refiere a las ventas de una tienda de bicicletas internacional. Está compuesto por 14 variables, como puede verse en la Tabla 3-1. Este conjunto de datos fue modificado para satisfacer los intereses del socio industrial.
Probs.
Data items
Group
Dims. Reqs.
Metrics
Measure
Val.
Metrics
Analysis
Com.
VIII Tabla 3-1 Variables y Datasets del caso de estudio
En cuanto a las DC, las seleccionadas para la evaluación fueron:
- Completitud. La tasa de datos almacenados contra el potencial 100% de completos.
- Validez. La medida en que un valor cumple con las reglas predefinidas.
Puede haber reglas de formato, tipo o rango.
- Exactitud. Los datos son exactos si describen correctamente el objeto del mundo real que se describe.
- Consistencia. La ausencia de diferencias cuando se comparan dos valores.
Debido a la naturaleza especial de este proyecto y a su relevancia, se utiliza una sección para describir el proceso de contaminación, a pesar de que no es una TE propiamente dicha (como se describe en el Hybrid Approach). Los métodos de contaminación se discutieron con el socio industrial para representar las cuestiones de datos que les interesaban más. El script a cargo de la contaminación se dividió en cuatro secciones, cada una de ellas relativa a una DC.
Con respecto a las métricas utilizadas, en la Tabla 3-2 se pueden ver las unidades de medida y las fórmulas utilizadas para evaluar la calidad de los datos del conjunto de datos del caso de estudio.
Tabla 3-2 Medidas y unidades de medida para las DC
DC Medida Unidad de Medida
Completitud 𝐼𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 −𝐼𝑡𝑒𝑚𝑠 𝐵𝑙𝑎𝑛𝑐𝑜𝑠
𝐼𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 Porcentaje (%)
Validez 𝐼𝑡𝑒𝑚𝑠 𝑣á𝑙𝑖𝑑𝑜𝑠
𝐼𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 Porcentaje (%)
Consistencia 𝐼𝑡𝑒𝑚𝑠 𝑐𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡𝑒𝑠
𝐼𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 Porcentaje (%)
Precisión 𝐼𝑡𝑒𝑚𝑠 𝑒𝑥𝑎𝑐𝑡𝑜𝑠
𝐼𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 Porcentaje (%)
Aunque se realizaron varios experimentos, sólo se probaron cuatro escenarios de contaminación importantes, ya que la validación de todos ellos no añadió valor a los experimentos. Para la construcción de estos escenarios, se utilizaron 4 rangos:
- Excelente calidad: 10-30% de contaminación - Buena calidad: 30-50% de contaminación - Mala calidad: 50-70% de contaminación - Muy mala calidad: 70-90% de contaminación
4 Análisis de Resultados
El proceso de contaminación generó 4 escenarios. Estos escenarios se analizarán ahora con las cifras correspondientes según cada nivel de KPI.
4.1 KPIs
4.1.1 KPI de nivel 1
El primer KPI se creó para tener una idea rápida de la calidad del sujeto de estudio. Como se puede ver en laFigura 4-1, este KPI tiene tres áreas correspondientes a tres rangos: rojo para una condición de mala calidad (0-30%),
X amarillo para una condición de calidad media (30-70%) y verde para una condición de buena calidad (70-100%). Estos rangos pueden ser modificados si es necesario, ya que han sido determinados según los criterios arbitrarios.
Figura 4-1 KPI nivel 1
4.1.2 KPIs de nivel 2
Se crearon dos tipos de KPIs: uno para los conjuntos de datos en relación con las DC y otro para los DC en relación con los conjuntos de datos. Cuatro escenarios que contienen dos KPIs conforman los KPIs de nivel 2 para este proyecto. A modo de ejemplo, se incluyen los dos primeros KPIs, que se pueden observar en la Figura 4-2.
Figura 4-2 KPIs de nivel 2
4.1.3 KPIs de nivel 3
Este nivel es útil para llegar a la raíz de la cuestión cuando existe un problema serio de calidad. Este nivel está compuesto por los siguientes tipos de gráficos:
- Gráficas de series de tiempo relativas a las DC. La Figure 4-3 muestra las tendencias que este DC ha seguido en el año 2015. La tasa media de contaminación para la integridad para las tres variables expuestas es del 32,5%.
Figure 4-3 Evolución de la completitud de tres variables durante el año 2015 - Análisis detallado para DC específicas. La inconsistencia interna se ha
analizado mediante la distancia de Levenshtein descrita en 3.4.4. Esta métrica está asociada a la variable "Tipo_producto", que pertenece a D02 y puede tomar tres valores: "Crítico", "Reparable" o "Vida_Limitada". El proceso de contaminación introdujo diferentes errores tipográficos, incluyendo errores de lenguaje. Como se puede observar en la Figura 4-4, la inconsistencia interna puede ser mayor que la inconsistencia externa.
XII Figura 4-4 Incosistencia interna vs. externa
- Gráficos para variables críticas. El análisis de las variables críticas puede llevar a conclusiones importantes. Los operadores, que normalmente son los encargados del proceso de introducción de datos, pueden ser una fuente de errores si no están debidamente capacitados o no están controlados. La validez del "Tipo_producto", que sería adecuado para que los operadores lo introdujeran, se contaminó con un promedio del 71,65%
de valores no válidos. Se estudiaron las variables "Turno" y "Posición"
para obtener una visión interesante para los responsables de la toma de decisiones. Se muestra como ejemplo el resultado para la variable “Turno”
en la Figura 4-5.
Figura 4-5 Análisis de la validez del "Tipo_producto" en función del turno
4.2 Validación
4.2.1 Validación numérica
Para la validación numérica se desarrolló un nuevo script para calcular la media de las tasas de contaminación introducidas antes del análisis y las tasas de evaluación calculadas para cada DC. Si los indicadores de calidad (calculados independientemente del proceso de contaminación) son consistentes con las tasas de contaminación, el indicador de calidad debe ser 100% sin contaminación y 0% con una contaminación del 100%, y todas las combinaciones lineales posibles entre ellas. La forma de la representación en un gráfico en el que el eje x muestra las tasas de evaluación y el eje y las tasas de contaminación deben formar una línea. Esto sucede para los cuatro escenarios con desviaciones muy pequeñas de esta línea, como puede verse en la Figura 4-6. Este análisis demuestra que el resultado obtenido de las tasas de evaluación es una representación exacta de la calidad de los datos para una amplia gama de tasas de contaminación.
XIV Figura 4-6 Validación numérica
4.3
Validación del Socio Industrial
El cuestionario se envió al socio industrial para validar las decisiones adoptadas durante el desarrollo del proceso. Estas decisiones implicaban cuestiones como los problemas de calidad identificados, la complejidad del caso de estudio o la selección de los indicadores clave de rendimiento (KPIs).
Como se ve en la Figura 4-7, los resultados de este cuestionario se agruparon en tres secciones: Metodología, Contaminación del Conjunto de Datos y Selección y Evaluación de la Calidad. La aprobación dada por el socio es suficiente para asegurar la dirección correcta del proyecto. En los siguientes puntos se analizan los resultados de las secciones:
- En la sección de Metodología se evalúa la validez de uno de los entregables del proyecto: una metodología para la DQA. Las notas indican que el Hybrid Approach fue una selección correcta y se adaptó adecuadamente para el caso de estudio de este proyecto.
- En cuanto a la segunda sección, ésta ha sido la peor puntuación de las tres (4,2 contra 4,33 y 4,5). A pesar de que la diferencia no es notable, la
búsqueda de un caso de estudio adecuado ha sido una de las mayores barreras en el proyecto, ya que las cuestiones de divulgación siempre fueron un obstáculo para la dirección del proyecto.
- La evaluación de la calidad ha sido la sección mejor puntuada de todo el proyecto. Esto es esencial ya que, al final, lo que este proyecto ha buscado es la evaluación de la calidad de un caso de estudio para crear un modelo para el caso real del socio.
Figura 4-7 Resultados del cuestionario
5 Discusión
El resultado más importante de este proyecto es la validación exitosa de una nueva metodología adaptada para la evaluación de la calidad de un conjunto de datos. Esta validación se logró sin un conjunto de datos industriales reales y también con información limitada sobre el contexto, elemento central en la mayoría de las metodologías revisadas en el estado del arte.
La metodología propuesta, basada en el Hybrid Approach, ha demostrado ser no sólo eficiente y fácil de aplicar, sino también ideal para cualquier empresa que por cuestiones de privacidad deba evitar las fugas de datos. Si la comunicación
XVI entre el socio y el consultor externo es fluida, esta metodología altamente personalizable es una gran opción para evaluar la calidad de los datos.
Una de las mayores barreras del proyecto ha sido la correcta implementación de la métrica. El factor más importante para esto fue que la contaminación de determinadas DC tuvo efectos en otras DC: eran dependientes. Por ejemplo, la introducción de errores tipográficos en algunas variables afectó no sólo a la validez, sino también a la consistencia, ya que los elementos consistentes son los que tienen el mismo valor en otros conjuntos de datos.
Otra cuestión importante fue la de los valores atípicos (outliers). Éstos podían introducirse fácilmente pero no medirse tan fácilmente después, aunque R incluye diferentes formas de hacerlo. La primera se basa en boxplots, pero los resultados no son lo suficientemente precisos y este método es fijo.
La validación numérica se realizó con escenarios distintivos para que la validación fuera lo más evidente posible. Para probar la métrica, cada escenario contenía diferentes tasas de contaminación. Sin embargo, el proceso de contaminación afectaba directamente a las DC, y no a los conjuntos de datos.
Una combinación de ambos procesos puede haber sido interesante para el análisis posterior.
El trabajo futuro para este proyecto se propone en los siguientes puntos:
- La continuación del proyecto global al que pertenece este proyecto. Este proyecto global se refiere al restablecimiento, la reestructuración y la conciliación de las estructuras de datos de los asociados.
- Este proyecto ha basado todos sus resultados en un caso de estudio. Por lo tanto, la primera acción sería validar los resultados obtenidos con un caso de estudio real. Los algoritmos desarrollados no serán útiles por lo que se deberán desarrollar nuevos.
- Un proceso de contaminación que contaminara tanto las DC como el conjunto de datos puede haber arrojado más luz sobre los resultados obtenidos, especialmente para los KPIs de nivel 2.
- La reestructuración de los algoritmos desarrollados para aumentar su idoneidad para cualquier otro proyecto de evaluación de calidad de datos.
Si se hace correctamente, podrían convertirse en una poderosa herramienta para muchas empresas que se encuentran en situaciones similares.
6 Conclusión
Los objetivos declarados al principio de este proyecto eran:
1. Realizar una revisión del estado del arto sobre los indicadores de calidad de datos y TE.
2. Proponer un enfoque para evaluar y cuantificar la calidad de datos en conjuntos de datos escasos.
3. Aplicar este enfoque a un caso de estudio seleccionado sobre datos de repositorio.
La revisión del estado del arte se centró en la búsqueda de una metodología adecuada de evaluación de calidad de datos, pero también se analizaron los errores de datos y DC más comunes. Con respecto a los primeros, se desarrolló una comparación de las metodologías de evaluación de calidad de datos más importantes para seleccionar la más apropiada para este proyecto. La segunda también fue clave para la evaluación, ya que reveló las DC, elementos básicos de la metodología y las posteriores mediciones realizadas.
En cuanto al segundo objetivo, la metodología propuesta basada en el Hybrid Approach evalúa y cuantifica la calidad de datos en la medida necesaria. El resultado más importante que demuestra el logro de este objetivo es la validación con el socio. En este cuestionario, el socio está de acuerdo con el enfoque seleccionado, calificándolo con una nota significativamente alta (4,33 / 5).
Finalmente, el tercer objetivo se alcanzó con la realización de varios hitos:
- La selección de un conjunto de datos apropiado de un repositorio en Internet.
Este conjunto de datos se adaptó convenientemente para que se asemejara en
XVIII estructura y complejidad a un conjunto de datos de gestión de activos industriales según los requisitos del socio industrial. Para alcanzar ese nivel de detalle se hicieron varias modificaciones, como la inclusión de nuevas variables, la modificación de las existentes y la eliminación de algunas de ellas.
- La implementación de los guiones en la plataforma de R Studio para abordar el punto anterior, agrupar los datos, contaminarlos, medir la calidad de datos y crear gráficos para este fin.
- El proceso de validación tanto numérica como con el socio. El primero demostró la solidez de la métrica utilizando una amplia gama de tasas de contaminación.
El segundo demostró la selección de la metodología correcta, el proceso de selección y contaminación del conjunto de datos y la evaluación de la calidad de datos realizada.
En conclusión, la aplicación del enfoque propuesto puede tener un impacto real en el socio industrial. Aunque no se ha entregado una metodología totalmente personalizada debido a la falta de información causada por cuestiones de confidencialidad, este enfoque adaptable puede ser sin duda un punto de partida para que creen su propia configuración de las actividades de TE, que debería ser similar a la que aquí se indica. Además, los KPIs y la forma en que están organizados son un entregable muy útil del que pueden beneficiarse. Por último, la visualización de la calidad de los datos en tres niveles que se propone proporciona resultados tanto resumidos como fáciles de interpretar, así como gráficos detallados, como series cronológicas y variables críticas, que pueden ser de gran ayuda para los responsables de la toma de decisiones.
CRANFIELD UNIVERSITY
Eloy Ernesto Rubí Sánchez
Data Quality Assessment for Asset Management Applications
SATM
Engineering and Management of Manufacturing Systems
MSc
Academic Year: 2019 - 2020
Supervisor: Dr Cristóbal Ruiz-Cárcel
Associate Supervisor: Dr John Ahmet Erkoyuncu
August 2020
CRANFIELD UNIVERSITY
SATM
Engineering and Management of Manufacturing Systems
MSc
Academic Year 2019 - 2020
Eloy Ernesto Rubí Sánchez
Data Quality Assessment for Asset Management Applications
Supervisor: Dr Cristóbal Ruiz-Cárcel
Associate Supervisor: Dr John Ahmet Erkoyuncu August 2020
This thesis is submitted in partial fulfilment of the requirements for the degree of Engineering and Management of Manufacturing
Systems MSc
© Cranfield University 2020. All rights reserved. No part of this publication may be reproduced without the written permission of the
copyright owner.
ABSTRACT
One of the biggest issues concerning the process of obtaining insight from data is that data in industrial applications can sometimes suffer from various flaws that difficult the reliability of such insights. Hence, one must be sure that the quality of the initial data meets predefined standards in order to assure the reliability of the conclusions obtained from it. In this context, data profiling is the process that tackles this issue, which entails the statistical analysis and the assessment of the quality of data. This project seeks to create a methodology along with a data profiling tool to obtain different KPIs for the quality of a dataset in the context of asset management applications. This methodology was implemented and assessed in a case study, and the results obtained are subjected to a validation process to assure the quality of the work. The main outcome of the work is a data quality evaluation method that provides information to the user in three layers with different level of detail and can be used in a wide range of applications in the context of asset management.
Keywords:
Data quality, data profiling, asset management, multivariate data, data visualization
ii
ACKNOWLEDGEMENTS
A very important part of my life comes to an end with the completion of this thesis.
Looking back, I can say that these past 8 years have been a tremendous path, with many ups and downs, lots of lessons learnt, and many more thanks to give.
Despite for some this achievement may not mean much, for me becoming an engineer is a true dream come true. I am honest when I say that there have been tears and also doubts as to whether I would be able to make it. Now that the peak seems so near, I cannot help but think in all the people that have pushed me when times were rough. The list would be quite long so I will rather summarize it:
to my parents, to my brother, to my cousin and to my grandparents, both who are here and who are not; to my friends: thank you for supporting me, putting up with me and, above all, loving me so much.
I would like to give a special thanks to Dr Cristóbal Ruiz-Cárcel, my supervisor. I have enjoyed each Teams session with him, and he has been a great source of knowledge, critical thinking and insightful feedback. Thank you, firstly, for accepting me and secondly, for leading me so well during these 4 months.
I cannot end these acknowledgments without expressing my gratitude to ETSII UPM and Cranfield University for the opportunity of participating in a double degree program in such a great university and the possibility of making great long-lasting friendships. Finally, thanks to the industrial partner, Babcock International, and its great and always helpful members: Jordan, Sarah and Nicole. I really appreciate your support.
Gracias a todos.
TABLE OF CONTENTS
ABSTRACT ...i ACKNOWLEDGEMENTS ... ii LIST OF FIGURES ...v LIST OF TABLES ... vi LIST OF EQUATIONS ... vii LIST OF ABBREVIATIONS ... viii 1 INTRODUCTION ... 9 1.1 Background ... 9 1.2 Problem definition ... 9 1.3 Aim and objectives... 10 2 LITERATURE REVIEW ... 11 2.1 Data Quality Assessment: a brief review ... 11 2.2 Comparison of methodologies ... 12 2.3 Hybrid Approach Case Study ... 16 2.4 Types of data errors and QDs ... 18 3 METHODOLOGY ... 21 3.1 General Methodology ... 21 3.2 DQA Methodology Selection and justification ... 22 3.3 The Hybrid Approach ... 23 3.4 Implementation of the Hybrid Approach ... 25 3.4.1 Dataset selection and preparation (Data items) ... 26 3.4.2 Quality dimensions (Dims.) ... 27 3.4.3 Datasets contamination ... 28 3.4.4 Metrics for DQ assessment (Metrics) ... 29 3.4.5 DQ measure (Measure) ... 30 3.5 Metrics Validation (Val. Metrics) ... 31 3.6 DQ Measurement Analysis (Analysis) ... 34 4 ANALYSIS OF RESULTS ... 35 4.1 Key Performance Indicators ... 35 4.1.1 Level 1 KPI ... 35 4.1.2 Level 2 KPIs ... 37 4.1.3 Level 3 KPIs ... 40 4.2 Validation results ... 44 4.2.1 Numerical validation... 44 4.2.2 Validation questionnaire ... 45 5 DISCUSSION ... 48 5.1 A new adapted tool for DQA... 48 5.2 The DQA intricacies ... 48 5.3 Validation ... 50 5.4 Future work ... 50
iv
6 CONCLUSIONS ... 52 REFERENCES ... 54 APPENDICES ... 57 Appendix A The Hybrid Approach in detail ... 57 Appendix B Validation Questionnaire... 60 Appendix C Decision Tree by Cichi and Rass (2019) ... 61 Appendix D CURES Approval ... 62
LIST OF FIGURES
Figure 1-1 Situation of this work with regard to the main project ... 9 Figure 2-1 Types of data structures (Batini et al., 2009) ... 11 Figure 2-2 Classification of DQA methodologies (Batini et al., 2009) ... 13 Figure 2-3 Configuration of activities in a particular AT (Woodall, Borek and Parlikad, 2013)... 16 Figure 2-4 Configuration of activities in the LUL case study (Woodall, Borek and Parlikad, 2013)... 18 Figure 3-1 General Methodology ... 21 Figure 3-2 Configuration of AT activities for this project ... 25 Figure 3-3 Validity errors introduction for variable Product_type in D02 ... 28 Figure 3-4 Unit cost for items with and without contamination ... 29 Figure 3-5 Contamination_rates structure ... 32 Figure 3-6 Contamination scenarios for validation ... 33 Figure 3-7 Pyramidal KPIs ... 34 Figure 4-1 First level KPI for each scenario ... 36 Figure 4-2 First level KPIs with weighted average ... 36 Figure 4-3 Level 2 KPIs for first scenario... 38 Figure 4-4 Level 2 KPIs for second scenario... 38 Figure 4-5 Level 2 KPIs for third scenario ... 39 Figure 4-6 Level 2 KPIs for fourth scenario ... 40 Figure 4-7 Completeness trend during 2015 for 3 variables in D01 ... 41 Figure 4-8 Completeness trends during 2016 for three variables in D01 ... 41 Figure 4-9 Internal inconsistency (Levenshtein Distance) vs. External Inconsistency ... 42 Figure 4-10 Data validity errors input depending on shift of operators ... 43 Figure 4-11 Data validity errors depending on position of operators ... 44 Figure 4-12 Validation: contamination vs assessment rates... 45 Figure 4-13 Marks given by the industrial partner ... 46
vi
LIST OF TABLES
Table 2-1 DQA methodologies (Batini et al., 2009) ... 12 Table 2-2 DQA methodologies comparison (Batini et al., 2009) ... 13 Table 2-3 Review of appropriate methodologies (Cichy and Rass, 2019) ... 15 Table 2-4 Requirements and suitable AT activities ... 17 Table 3-1 Requirements and suitable AT activities ... 24 Table 3-2 Variables in the case study ... 26 Table 3-3 Data grouping... 27 Table 3-4 DQ errors selected and associated QD ... 27 Table 3-5 Metrics for each of the QD ... 29 Table 3-6 Measurement examples for each QD ... 31 Table 4-1 Contamination rates and results for first level KPIs ... 35
LIST OF EQUATIONS
(3-1) ... 29 (3-2) ... 29 (3-3) ... 30 (3-4) ... 30 (3-5) ... 30 (4-1) ... 37 (4-2) ... 37 (4-3) ... 45
viii
LIST OF ABBREVIATIONS
AT Assessment Technique DQ Data Quality
DQA Data Quality Assessment IT Information Technology LUL London Underground Limited NA Not Available
QD Quality Dimension
1 INTRODUCTION
1.1 Background
The new digital era that is settling down in our society is having a real impact at all levels and dimensions. The way humans interact, behave and think is rapidly changing, and in the same way companies must keep up the pace to not lose market share. The asset management industry is not any different. More and more, operations teams are seeking to be more efficient by exploiting the so- called oil of the twenty-first century: data (Fernández-Lasquetty, 2020).
The present work is part of a bigger project that is being undertaken by Babcock International in collaboration with Cranfield University. This company is interested in the quality of operations data in the context of the Industry 4.0. This project addresses only the data quality assessment (DQA) and leaves for the future the improvement, costs or types of information systems. The structure of the main project can be seen in Figure 1-1.
Figure 1-1 Situation of this work with regard to the main project
1.2 Problem definition
In the context of asset management there are times when important decisions need to be taken. Whether to replace an ageing asset or to maintain it can be critical for a company in terms of budget. This decision must therefore be based in solid reasons, and these can only be found within data.
However, in many cases, particularly when data is manipulated by humans, there can be errors such as inconsistencies, missing data or inaccuracies. Data quality
10
(DQ) then becomes an essential issue to ensure data issues do not compromise the results of any analysis. This project aims to create a methodology to assess and accurately measure the quality of data, aiding the decision on the need to cleanse data before a decision is made. This study focuses on the measurement and representation of data quality.
1.3 Aim and objectives
The aim of this project is to develop and validate a methodology or DQA in the context of asset management. The specific objectives planned to achieve that aim are:
1) Undertake a literature review on existing DQA methodologies and study those in the field of asset management. The most common data quality indicators and ATs must be analysed for the selection of the most suitable.
2) Develop a DQA methodology specifying the assessment techniques (ATs) needed to assess data quality (DQ), the corresponding quality dimensions (QDs) and the metrics that will be used to measure DQ. This methodology will be implemented including any adaptations required by the industrial partner, focusing on measurement and visualization of the different QDs.
3) Application and assessment of the proposed methodology on a selected case study from a publicly available dataset that has the features required by the industrial partner in terms of structure and complexity. The selected methodology must deliver the corresponding KPIs and be validated both numerically and with feedback from the industrial partner.
2 LITERATURE REVIEW
2.1 Data Quality Assessment: a brief review
There are numerous methodologies that address the assessment of the quality of data, and this number is growing due to the increasing value of data. The following review has been undertaken to find the most appropriate methodology for the case study of this project. The search engines Scopus and ScienceDirect were the main tools used for this matter.
In order to classify and compare the methodologies, up to 9 perspectives can be considered (Batini et al., 2009). These perspectives include, among others, the phases, the strategies, the dimensions or the processes. It is important to note that most of the methodologies consider not only the assessment, but also other stages such as the improvement phase or the contextualization.
Figure 2-1 shows how data can be grouped into three types: structured, unstructured and semi structured. As data lose structure, data quality techniques become more complex for their implementation. However, in this case the datasets contain only structured data.
Figure 2-1 Types of data structures (Batini et al., 2009)
The most important perspective that is considered are the QDs. Since the nature of the project prevents from the subjective assessment of DQ, the assessment relies on objective QDs, which are selected considering the features of the dataset, as will be seen in 3.
12
2.2 Comparison of methodologies
The Table 2-1 shows the most important DQA methodologies developed until 2009 (Batini et al., 2009). The diverse nature of organisations that have faced the issue of DQ has resulted in different ways of addressing this problem.
Table 2-1 DQA methodologies (Batini et al., 2009)
Due to space limitations not all the methodologies in the table will be presented.
In this context, the most important characterization addressed in this work is represented in the Figure 2-2. Four types of methodologies were identified: audit, operational, economic and complete. For this project, the methodology must focus uniquely on the assessment, leaving apart cost and improvement issues.
Hence audit methodologies will be analysed in the following paragraphs: they are more accurate as they provide more details in how to select the appropriate ATs.
(Wang, 1998)
(Jeusfeld, Quix and Jarke, 1998)
(English, 1999) (Lee et al., 2002)
(Long and Seko, 2005) (Pipino, Leo L. Yang and Wang, 2002)
(Eppler and Helfert, n.d.) (Falorsi et al., 2003) (Su and Jin, 2006)
(Loshin, 2001)
(Mecella et al., n.d.)
(Batini and
Scannapieco, 2006) (Batini et al., 2006)
Figure 2-2 Classification of DQA methodologies (Batini et al., 2009)
Having made that distinction, the next step is to discriminate between the audit methodologies, highlighted in bold in Table 2-2. This table establishes a comparison between methodologies depending on different features. The most important for this project are the “Data Analysis”, the “DQ Requirements Analysis”, the “Measurement of Quality” and the “Extensible to Other Dimensions and Metrics”.
Table 2-2 DQA methodologies comparison (Batini et al., 2009)
14
The CIHI (Canadian Institute for Health Information) is directed to solving DQ issues of health and the QAFD (Quality Assessment of Financial Data) focuses on financial data (Long, Richards and Seko, 2002). The IQM (Information Quality Measurement) however provides an information quality framework for web data and the AIMQ (A Methodology for Information Quality Assessment) is based in questionnaires (Batini et al., 2009). The four were discarded.
There is another methodology that complies with the established features: the DQPA (A Data Quality Practical Approach) (Angeles and García-Ugalde, 2009).
Hence, three methodologies were subject of study:
• AMEQ (Activity-based Measuring and Evaluation of Product Information Quality). This methodology is specifically designed for manufacturing systems.
• DQA (Data Quality Assessment). The DQA proposes a simpler approach with just three phases, including both subjective and objective assessments. (Pipino, Leo L. Yang and Wang, 2002).
• DQPA (A Data Quality Practical Approach). It is composed of 7 steps and it demonstrates its functioning with a case study based in SQL.
The selection of the most appropriate methodology for each case can be addressed with the decision tree seen in Table C-1 (Cichy and Rass, 2019). The methodologies that comply with the features previously stated (i.e., answer “Yes”
to the appropriate questions) are highlighted in the Table 2-3.
Table 2-3 Review of appropriate methodologies (Cichy and Rass, 2019)
As will be seen later, the case study of this project is quite peculiar and hence needs a totally adapted assessment methodology. The Hybrid Approach by researchers of the University of Cambridge is a very interesting methodology due to its great customization possibilities (Woodall, Borek and Parlikad, 2013). This approach aims to create an adapted AT (assessment technique) for each case study by establishing a set of activities. These activities have been extracted from the main DQ ATs that have already been presented and later reviewed and classified as either recommended or optional.
In order to obtain these activities, four steps must be addressed:
1. Formulation of the aim of the assessment.
2. Identification of the company’s requirements related to de DQA.
3. Selection of the suitable AT activities.
16
4. Configuration of the activities in the AT.
Figure 2-3 shows an example of a generic AT, which is the outcome of this approach.
Figure 2-3 Configuration of activities in a particular AT (Woodall, Borek and Parlikad, 2013)
The Table A-1 contains all the extracted activities with their abbreviations and corresponding sources. Note that the “-a” at the end of the source AT denotes the DQ assessment part of a complete DQ methodology.
2.3 Hybrid Approach Case Study
In order to prove the performance of this approach, a trial with London Underground Limited (LUL) was undertaken (Woodall, Borek and Parlikad,
2013). The data to be assessed concerned signalling, control and information of the train lines operated by LUL.
Table 2-4 Requirements and suitable AT activities
The DQA of these datasets had its origin in the critical nature of the activities performed by LUL. The aim of the assessment was to identify what the DQ problems were in the signalling, control and information asset group of LUL. Table 2-4 establishes the requirements and the suitable AT activities for this case study.
The resulting AT is shown in Figure 2-4.
18
Figure 2-4 Configuration of activities in the LUL case study (Woodall, Borek and Parlikad, 2013)
The selection of data items was the first step. The data was then grouped into maintenance or finance or both depending on the usage. Afterwards, the completeness and the conformance to business rules were identified as the QDs to assess. The metrics used were of the form “number of violations of the rule” /
“total number of values” (proportion of errors). The analysis also included the grouping of the results according to users.
2.4 Types of data errors and QDs
Data errors can be found in literature side by side with data cleansing, which is defined as the process of identifying and removing errors from datasets. One of the most important data errors are missing values (related to the completeness).
These have been categorized into three groups depending on the mechanism that causes their absence (Silva and Zárate, 2014). These are:
• MCAR (missing completely at random): the probability of absence for a variable Y is not related to the value of Y itself neither to other variables in the dataset. The distribution of this variable with missing data retains the original features of the complete distribution.
• MAR (missing at random): the probability of absence for a variable Y depends on other variables, but not on the variable Y itself. In some cases, the original distribution can be lost.
• NMAR (not missing at random): the probability of absence for a variable Y depends on the own value of Y. There are significant variations of the variable’s distribution if the dataset contains too many missing data.
Another common error is the absence of accessibility, which can be defined as the “extent to which information is available or quickly retrievable” (Woodall et al., 2015). The problems identified by Woodall are that information is not consolidated, that it is misplaced, that it is not supplied by third parties and that data is irretrievable from obsolete systems.
Consistency, on the other hand, can be a serious problem for decision-makers.
This happens when two different people insert the same value in two different formats. As an example, for the same amount of time of labour hours, one person can input 0.5 days and another 12 hours. This is usually tackled with staff training, understanding and appreciation of how their actions towards data can affect the upstream information and hence decisions.
The accuracy, as the conformity of the recorded value with the actual value, also generates controversy across different data modifiers. Poor accuracy can happen due to human mistakes, either intentional or not. The intentional input of wrong data is normally due to the ignorance of the real data. Staff training is the key to solve this issue.
The answer to the question “does data match the rules?” belongs to the validity, a QD that requires the pre-set of certain rules. If items don’t comply with these, then the validity of the dataset is affected.
20
Finally, the appropriate amount of data is something to consider if you do not want decision-makers to get flustered. In the asset management field, asset faults reports are a great example of too many data that can have unintended consequences.
3 METHODOLOGY
3.1 General Methodology
This project has been addressed in 7 different stages that compose the actual methodology, as can be seen in Figure 3-1.
Figure 3-1 General Methodology
The literature review provided information for the selection of the most appropriate DQA methodology. The need for a context and most customized methodologies were the tallest barriers to overcome at the time of selection. The methodology required a case study to be validated and, to avoid confidentiality issues, a dataset was obtained from an opensource database and modified for the purpose of the assessment. Finally, the development of the scripts resulted in the obtention of different KPIs and the subsequent analysis, that lead to the discussion and conclusions of the project.
Literature Review
DQA Methodology Selection
Dataset Selection
Algorithms Development
KPIs Obtention
Validation
Analysis of Results 1
2
3
4
5
6
7
Discussion and Conclusions 8
22
3.2 DQA Methodology Selection and justification
The selection started by identifying the main features that the assessment methodology had to include as discussed with the project sponsor. These features were:
• Adaptability: it had to be flexible in order to implement the adequate variations.
• General purpose: it should not be specifically oriented to any field; it could only be considered if it was oriented to manufacturing systems.
• Focus on specific stages: it should focus on the assessment and measurement stages.
It was also essential to consider the attributes of the targeted datasets. They belong to an enterprise that is willing to use data to further improve the efficiency of asset management. Due to disclosure issues, the information provided was limited to general guidance on the characteristics of the data, composed by several multivariate datasets concerning areas such as usage or maintenance records.
The selected methodology required to be as adaptative as possible to best suit the case study faced. Among the methodologies presented in 2.2, the AMEQ, the DQA and the DQPA were the only specific purpose methodologies that could suit.
The three were discarded: the AMEQ embraced too many issues and considered variables that were not in any case related with the case study presented, the DQA relied entirely in the comparison between the subjective and objective assessments of the QDs, and the DQPA was based in a multisource data system and focused on the assessment of derived data, which is the provenance of data.
As a result, the methodology selected for this project is the Hybrid Approach. The strongest point of this methodology is its adaptability to the case study of interest (Woodall, Borek and Parlikad, 2013). This approach allows the complete configuration of the assessment from scratch, apart from establishing the assessment activities as a result of a rigorous research previously undertaken. In addition, as seen in 2.3, the Hybrid Approach contains a case study that validates
their methodology in a similar field as the one studied in this project. Finally, this assessment methodology has been validated by the industrial partner by means of a questionnaire, that can be observed in Appendix B.
3.3 The Hybrid Approach
According to the Hybrid Approach, four steps need to be undertaken in order to obtain the desired ATs (Woodall, Borek and Parlikad, 2013). These are:
• The aim of the assessment. The partner set three aims that need to be achieved with the completion of this project.
a. Educate people that input data
b. Provide a methodology to assess DQ c. Obtain a DQ KPI of the data
• The company’s requirements. These are:
a. Identify existing problems with DQ
b. Select appropriate dataset that resembles an industrial case c. Group data depending on their features
d. Identify the critical DQ dimensions
e. Maintain periodical meetings with the partner f. Choose the most suitable metrics
g. Validate the DQ measurement performed
h. Objectively measure and visually represent DQ i. Draw conclusions and analyse results
• Selection of suitable AT activities. Once the requirements are established, the next step is to identify a suitable AT activity for each of them. This has been done in Table 3-1.
24
Table 3-1 Requirements and suitable AT activities
• Configuration of AT activities. Figure 3-2 shows the configuration of all the AT activities. The process starts with the identification of the root problems (Probs.) related to the quality of the organisational data. It then passes to the selection (Data items) and grouping (Group) of data items, that will lead to the identification of the most suitable QDs (Dims.) and metrics (Metrics). The Measure activity results in the obtention of KPIs that will be checked through a validation process (Val. Metrics) and finally analysed (Analysis). The Com. activity has no links to other activities because it can be performed at multiple points during the assessment. The Reqs. box is filled with grey diagonal lines as it can be placed in other positions due to the eventual nature of the communication with the partner.
Figure 3-2 Configuration of AT activities for this project
3.4 Implementation of the Hybrid Approach
This section deals with the different approaches for each of the ATs activities seen in Figure 3-2. The Hybrid Approach does not contemplate the case of this project, in which the dataset has been retrieved from the internet and appropriately modified and contaminated to resemble in structure and complexity an industrial asset management dataset. As a result, the Probs. activity is not addressed to an ideal extent (due to disclosure issues), yet in a real case scenario this must be done. Similarly, the Data items activity includes the contamination of the dataset, which should not be considered in a normal case.
Probs.
Data items Group
Dims. Reqs.
Metrics
Measure
Val.
Metrics
Analysis
Com.
26
3.4.1 Dataset selection and preparation (Data items)
The algorithms for the preparation, contamination and assessment of the dataset quality have been developed in the R language by means of the R Studio platform (R Core Team, 2020). This programming language is very powerful in the field of statistics and graphics, and its opensource nature ensures access to a vast number of tutorials and functions.
The case study selected is a dataset that concerns sales from an international bike shop (Bahl, 2017). It is composed by 14 variables, as can be seen in Table 3-2. This dataset was modified in order to fulfil the sponsor’s interests.
Table 3-2 Variables in the case study
The grouping of the variables was done according to their typology. Five groups were created and correspondingly validated by the industrial partner. They can be seen in Table 3-3.
Table 3-3 Data grouping
3.4.2 Quality dimensions (Dims.)
In order to select the right QDs that would be subject of study, a comprehensive literature review was conducted, and the results were stated in 2.4. This section reviewed the most common data errors were reviewed, which together with the guidance from the industrial partner resulted in the selection shown in Table 3-4.
In this table, these issues are connected to the appropriate QD.
Table 3-4 DQ errors selected and associated QD
The QDs selected for the assessment were (Askham et al., 2013):
• Completeness. The rate of stored data against the potential 100%
complete.
• Validity. The extent to which a value complies with predefined rules. There can be format, type or range rules.
• Accuracy. Data are accurate if they correctly describe the real-world object being described.
28
• Consistency. The absence of difference when comparing two values.
3.4.3 Datasets contamination
Due to the special nature of this project and its relevance, a section is used to describe the process of contamination, despite it is not a proper AT (as described in the Hybrid Approach). The contamination methods were discussed with the industrial partner to represent the data issues that are more interesting for them.
The script in charge of the contamination was divided into four sections, each one concerning one QD:
• The first one addressed the completeness by means of introducing a known number of NAs in different variables at random locations. Several different contamination rates were used to subsequently validate the results with the assessment, i.e., measured KPI should be correlated with the contamination rates.
• The second section introduces variations on labels of a given value, affecting the validity. Considering that the bike shop has international presence in countries such as France or the United States, some labels were modified to the language and practices of their respective countries.
This can be seen in Figure 3-3, where for some products sold in France, the value “Life_Limited” has been changed for “vie_limitée”. Syntax and typographical errors were also introduced.
Figure 3-3 Validity errors introduction for variable Product_type in D02
• The third section focused on the accuracy. Certain variables were modified to include values that did not represent reality, for instance, prices of products 10 times higher than the real ones. This example can be seen in Figure 3-4, where the same variable (Unit_Cost) is presented with and without modified values.
• Finally, the fourth section modifies values at random locations from the variable “Unit_Cost” in the D04 dataset in order to affect the consistency for the same variable in two different datasets.
Figure 3-4 Unit cost for items with and without contamination
3.4.4 Metrics for DQ assessment (Metrics)
The metrics for the assessment are related to each of the QDs selected. In all cases the percentage of detected issues over the total number of observations is the unit of measure, as can be seen in Table 3-5 (Askham et al., 2013).
Table 3-5 Metrics for each of the QD
DQ Dimension Measurement Unit of Measure
Completeness 𝑇𝑜𝑡𝑎𝑙 𝐶𝑜𝑢𝑛𝑡𝑠 − 𝐵𝑙𝑎𝑛𝑘 𝐶𝑜𝑢𝑛𝑡𝑠 𝑇𝑜𝑡𝑎𝑙 𝐶𝑜𝑢𝑛𝑡𝑠
(3-1) Percentage (%)
Validity 𝑉𝑎𝑙𝑖𝑑 𝐼𝑡𝑒𝑚𝑠
𝑇𝑜𝑡𝑎𝑙 𝐼𝑡𝑒𝑚𝑠
(3-2) Percentage (%)
30 Consistency 𝐶𝑜𝑛𝑠𝑖𝑠𝑡𝑒𝑛𝑡 𝐼𝑡𝑒𝑚𝑠
𝑇𝑜𝑡𝑎𝑙 𝐼𝑡𝑒𝑚𝑠
(3-3) Percentage (%)
Accuracy 𝐴𝑐𝑐𝑢𝑟𝑎𝑡𝑒 𝐼𝑡𝑒𝑚𝑠
𝑇𝑜𝑡𝑎𝑙 𝐼𝑡𝑒𝑚𝑠
(3-4) Percentage (%)
For the consistency, however, not only the normal measurement in (3-3) has been used. The inconsistency has also been measured internally with the Levensthein similarity function (Kaiser et al., 2014). This metric is calculated as follows:
Where str1 and str2 are the strings subject of comparison, dist is the Levenshtein distance and A and B are the length of the strings. The Levenshtein distance function can be defined as the minimum number of operations required to transform one string in the other one. The package RecordLinkage from CRAN (Comprehensive R Archive Network) has been used for these calculations (Borg and Sariyar, 2020).
3.4.5 DQ measure (Measure)
The variables in each data set have been measured against each of the QDs, regardless of whether they were contaminated or not. In Table 3-6, a brief summary of the measurement process for each QD can be observed. The “$”
symbol refers to the variable belonging to a specific dataset. Thus,
“D02$Unit_Cost” refers to the variable “Unit_Cost” from the D02 dataset. The following bullet points explain the measurement process performed:
• To measure the amount of blank counts, the function is.na() was used.
This function returns the number of NAs (not available values) in a specific variable or dataset.
• For the validity, syntax, range and format rules were stated. Then, the algorithms found the indexes that complied with these rules (for example, the “Quantity” variable should be greater than 0) and they got counted.
𝐿𝑒𝑣𝑒𝑛𝑠ℎ𝑡𝑒𝑖𝑛𝑆𝑖𝑚(𝑠𝑡𝑟1, 𝑠𝑡𝑟2) = 1 −𝑑𝑖𝑠𝑡(𝑠𝑡𝑟1, 𝑠𝑡𝑟2) max(𝐴, 𝐵)
(3-5)
Table 3-6 Measurement examples for each QD
• Regarding the accuracy, the possibilities were limited as the absence of a reference prevented the assessment of the accuracy of all variables.
For the suitable variables, two measures were performed:
o Measures based in logic. The “Date” variable could not have a number greater than “12” in the corresponding place for months (this happens when dates are input in both European and American formats).
o Outliers. Some values that were of an order of magnitude greater than the mean were introduced in the contamination process in the variable “Unit_Cost”. The z-score (also known as standard score) with 2 standard deviations away from the population mean was the tool used to identify the outliers intentionally introduced.
• Finally, the consistency was assessed in the variables that were repeated along the datasets: “ProductID”, “OperatorID” and “Unit_Cost”.
The consistent items were those that had a counterpart in another dataset.
The measurement distinguished between datasets and variables. For each variable there is a measurement for each QD, and in a similar way for each dataset. The calculations for the datasets were made with a weighted average, i.e., it was possible to give different significances to each QD and see the results.
3.5 Metrics Validation (Val. Metrics)
The main reason for the numerical validation is to prove the correctness of the metrics. The use of a complete dataset where data issues are introduced in a controlled manner allows for the comparison of the metrics and the known rates
32
of contamination. This also validates the response of these metrics in different scenarios.
As stated in 3.4.1, three scripts were developed: one for the preparation of the datasets, other for the contamination and the last one for the DQ assessment. In order to validate the results of the assessment, all the randomly generated contamination rates were stored in a list (“contamination_rates"), a data structure in R that contains objects of different types. In turn, this list comprised of other 4 lists, one for each QD; each of these contained 22 values, one for each of the variables. This structure can be observed in Figure 3-5.
Figure 3-5 Contamination_rates structure
In a similar way, in the assessment script the values for the QDs rates were stored in another list (assessment_rates). If an item took the value of 0 in contamination_rates, the same value should have a value of 100 in the assessment_rates. It is important to note that the values that compose the assessment rates were then used to create the KPIs that will be discussed in Error! Reference source not found.. These KPIs were the way the contamination rates were validated.
Although various experiments were performed, only four significant contamination scenarios were proved, as the validation of all those did not add value to the experiments. For the construction of these scenarios, 4 ranges were used:
contamination_rates
1 2 3 4
.. .
22 1 2 3
4
.. .
22 1 2 3
4
.. .
22 1 2 3 4
.. .
22 1 2 3 4
Completeness Validity Accuracy Consistency
• Excellent quality: 10-30% of contamination
• Good quality: 30-50% of contamination
• Bad quality: 50-70% of contamination
• Very poor quality: 70-90% of contamination
The scenarios created mixed all the possibilities in order to obtain the richest insights and can be observed in Figure 3-6. These were:
1. Low contamination rates: all QDs were contaminated with excellent quality ranges.
2. Medium contamination rates: two QDs were contaminated with good quality ranges and two with bad quality ranges.
3. Extreme contamination rates: two QDs were contaminated with very poor ranges and two with excellent quality ranges.
4. High contamination rates: all QDs were contaminated with very poor- quality ranges.
Figure 3-6 Contamination scenarios for validation
Apart from the numerical validation, a general validation process has also taken place with the partner by means of a questionnaire. This questionnaire was divided into three sections: Methodology, Dataset Selection and Contamination and Quality Assessment. The partner marked each of them with a number from 1 to 5 (1 strongly disagree and 5 totally agree). This questionnaire can be observed in Appendix B and its results will be discussed in 4.2.
Sc.1 Low Contamination Rates
Completeness Accuracy Validity Consistency Excellent
Quality
Completeness Accuracy Validity Consistency Good
Quality
Bad Quality
Completeness Accuracy Validity Consistency Excellent
Quality Very Poor
Quality
Completeness Accuracy Validity Consistency Very Poor
Quality
Sc.2 Medium Contamination Rates
Sc.4 High Contamination Rates Sc.3 Extreme Contamination Rates