• No se han encontrado resultados

Desarrollo de un método para mejorar la calidad de datos en el proceso de construcción de un data Warehouse

N/A
N/A
Protected

Academic year: 2020

Share "Desarrollo de un método para mejorar la calidad de datos en el proceso de construcción de un data Warehouse"

Copied!
81
0
0

Texto completo

(1)Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. A. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Universidad Nacional de Trujillo. SI C. Facultad de Ciencias Físicas y Matemáticas. S. Escuela Académico-Profesional de Informática. DESARROLLO DE UN MÉTODO PARA MEJORAR LA CALIDAD DE DATOS EN EL PROCESO DE. Tesis para la obtención del Título de Ingeniero Informático Karina C. Espinoza Pareja. Hilda P. Carrillo Bello. B. IB. LI O. TE. CONSTRUCCIÓN DE UN DATA WAREHOUSE. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(2) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Presentación. A. S. Señores Miembros del Jurado:. SI C. En cumplimiento a las normas vigentes del Reglamento de Grados y Títulos de la Facultad de Ciencias Físicas y Matemáticas, carrera de Informática de la Universidad Nacional de Trujillo tenemos a bien. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. poner a vuestra consideración el presente trabajo de investigación intitulado:. “Desarrollo de un Método para mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse”.. Con la culminación de este trabajo de investigación se espera cumplir las exigencias formuladas en toda investigación, agradeciéndoles por anticipado las sugerencias y apreciaciones que se hiciera al respecto.. Trujillo, Mayo del 2013. -----------------------------. -----------------------------. HILDA PATRICIA CARRILLO BELLO. B. IB. LI O. TE. KARINA CECILIA ESPINOZA PAREJA. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(3) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. S. Dedicatoria. A. “Esta tesis quiero dedicarla a mi madre que desde siempre me ha dado su apoyo incondicional, por. ha inculcado en mí el deseo de superación”. SI C. sus consejos, sus valores, por la motivación constante que me ha permitido ser una persona de bien y. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Hilda Carrillo Bello. A mis padres, la Sra. Lidia Pareja y el Sr. Oswaldo Espinoza por ser el pilar fundamental en todo lo que he hecho hasta ahora, por los principios y valores que han inculcado en mí y por el apoyo incondicional que me dan. Ellos son mi mayor ejemplo de perseverancia y constancia. Hoy por hoy me enorgullezco de quien soy y todo se lo debo a ellos.. B. IB. LI O. TE. Karina Espinoza Pareja. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(4) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. S. Agradecimientos. A. “Quiero darles las gracias a todas las personas que de alguna manera colaboraron conmigo para que. SI C. este trabajo esté hoy realizado. A mi madre por el estímulo, la buena predisposición y sobre todo el apoyo que me brindó siempre para poder culminar este proyecto. Doy gracias a Dios que me enseño a. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. perseverar y luchar en todo lo relacionado con este proyecto de tesis. También a agradezco a mi asesor de tesis que estuvo involucrado en el desarrollo de este trabajo por comprometerse enteramente con él y guiarnos hasta su culminación.”. Hilda Carrillo Bello. Le agradezco infinitamente a DIOS por haberme permitido llegar hasta este punto y haberme dado salud para lograr mis objetivos, se de corazón que siempre me acompañas y proteges, gracias por todo. A mis padres porque creen en mí y siempre me apoyan incondicionalmente. A mi asesor Carlos Castillo, por la buena predisposición para apoyarnos en el desarrollo de esta tesis y finalmente a todos aquellos que de una u otra manera me apoyaron para hacer posible este trabajo.. B. IB. LI O. TE. Karina Espinoza Pareja. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(5) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Resumen En el presente trabajo, se propone el desarrollo de un método para mejorar la calidad de datos en el proceso de construcción de un Data Warehouse. La calidad en los datos está relacionada con las. S. dimensiones de calidad que se definen sobre los datos, es por esta razón que el método propuesto mide. A. la calidad en función a 4 dimensiones de calidad, que son la exactitud, completitud, consistencia y. SI C. unicidad. Se ha hecho un análisis de los errores más comunes que se presentan en los datos, en qué consisten, por qué resulta importante su consideración, las posibles causas que los generó y la forma de. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. medirlo. También se propone agregar una base de datos temporal dentro del proceso ETL, es en esta. B. IB. LI O. TE. base donde se analizaran los datos, detectaran los errores y a la vez se corregirán.. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(6) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Índice General. 2.. PLAN DE INVESTIGACIÓN ......................................................................................................... 1 REALIDAD PROBLEMÁTICA ............................................................................................. 1. 1.2.. ANTECEDENTES ................................................................................................................... 2. 1.3.. OBJETIVOS ............................................................................................................................ 4. 1.4.. FORMULACIÓN DEL PROBLEMA ..................................................................................... 5. 1.5.. HIPÓTESIS .............................................................................................................................. 5. 1.6.. JUSTIFICACIÓN DEL PROBLEMA ..................................................................................... 5. 1.7.. VIABILIDAD .......................................................................................................................... 6. 1.8.. LIMITACIONES ..................................................................................................................... 6. 1.9.. ORGANIZACIÓN DEL ESTUDIO ........................................................................................ 7. SI C. A. S. 1.1.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. 1.. MARCO TEÓRICO ......................................................................................................................... 9 2.1.. INTELIGENCIA DEL NEGOCIO (BI)................................................................................... 9. 2.1.1.. Importancia de BI ............................................................................................................. 9. 2.1.2.. Beneficios de BI ............................................................................................................. 10. 2.2.. DEFINICIÓN DE DATAWAREHOUSE.............................................................................. 10. 2.2.1.. Diseño de un Data Warehouse ....................................................................................... 12. 2.2.2.. ETL ................................................................................................................................ 19. CALIDAD DE DATOS ......................................................................................................... 21. TE. 2.3.. Antecedentes .................................................................................................................. 22. 2.3.2.. ¿Qué es calidad de datos?............................................................................................... 23. 2.3.3.. La Importancia de la calidad de datos ............................................................................ 24. 2.3.4.. Áreas de investigación en calidad de datos .................................................................... 24. 2.3.5.. Dimensiones de la calidad de datos ................................................................................ 25. 2.3.6.. Enfoque en las dimensiones de la calidad de datos ........................................................ 33. 2.3.7.. Técnicas y actividades de calidad de datos .................................................................... 34. B. IB. LI O. 2.3.1.. 2.4.. LIMPIEZA DE DATOS......................................................................................................... 35. 2.4.1.. Problemas que enfrenta la limpieza de datos ................................................................. 36. 2.4.2.. Fases de la limpieza de datos ......................................................................................... 37. 2.4.3.. Detección y corrección de errores .................................................................................. 38. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(7) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. 2.4.4. 2.5.. Prevención de errores ..................................................................................................... 40. CONTROL DE CALIDAD DE LOS DATOS....................................................................... 41 Valoración de datos ........................................................................................................ 41. 2.5.2.. Control de calidad de datos ............................................................................................ 41. 2.5.3.. Seguimiento y reporte .................................................................................................... 41. S. 2.5.1.. 2.6.1.. Valoración ...................................................................................................................... 42. 2.6.2.. Plan ................................................................................................................................. 42. 2.6.3.. Implementar ................................................................................................................... 42. 2.6.4.. Evaluar ........................................................................................................................... 43. 2.6.5.. Adaptar ........................................................................................................................... 43. 2.6.6.. Educar ............................................................................................................................ 43. RESULTADOS .............................................................................................................................. 45 3.1.. ERRORES MÁS COMUNES EN LOS DATOS................................................................... 45. 3.1.1.. EXACTITUD ................................................................................................................. 45. 3.1.2.. COMPLETITUD ............................................................................................................ 48. 3.1.3.. CONSISTENCIA ........................................................................................................... 49. 3.1.4.. UNICIDAD .................................................................................................................... 51. 3.2.. DESARROLLO DE MÉTODO PARA MEJORAR LA CALIDAD DE DATOS ................ 54 DIAGRAMA DE PROCESOS ...................................................................................... 54. TE. 3.2.1. 3.2.2.. DESARROLLO DEL MÉTODO................................................................................... 56. DISCUSIÓN DE RESULTADOS ................................................................................................. 63. LI O. 4.. CONCLUSIONES ......................................................................................................................... 67. 5.1.. CONCLUSIONES ................................................................................................................. 67. IB. 5.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. 3.. SI C. A. 2.6. CICLO DE MEJORAMIENTO DE LA CALIDAD DE DATOS EN UNA ORGANIZACIÓN ............................................................................................................................. 42. TRABAJOS FUTUROS ........................................................................................................ 68. B. 5.2.. REFERENCIAS ..................................................................................................................................... 69. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(8) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Índice de Figuras FIGURA 1: Proceso ETL con la base de datos temporal .................................................................. 57. B. IB. LI O. TE. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. SI C. A. S. FIGURA 2: Etapas por las que pasan los datos en la base de datos Temporal ................................. 58. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(9) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Índice de Tablas. B. IB. LI O. TE. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. SI C. A. S. Tabla 1 – Tipos de errores en los datos .................................................................................................. 45 Tabla 2: Análisis de errores en los datos ................................................................................................ 59 Tabla 3: Corrección de errores en los datos ........................................................................................... 60 Tabla 4: Resultados de las dimensiones de calidad para un campo determinado .................................. 61 Tabla 5: Cuadro comparativo entre método tradicional y método propuesto ........................................ 65. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(10) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Índice de Cuadros. B. IB. LI O. TE. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. SI C. A. S. Cuadro 1: Porcentaje de errores encontrados para un campo determinado. ........................................... 63 Cuadro 2: Porcentaje de errores encontrados para un campo determinado después de la corrección de los mismos. ............................................................................................................................................. 64. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(11) C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. SI C. A. S. Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. B. IB. LI O. TE. CAPÍTULO I PLAN DE INVESTIGACIÓN. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(12) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. 1. PLAN DE INVESTIGACIÓN 1.1. REALIDAD PROBLEMÁTICA. S. Dado que la información es un recurso organizacional, y que es usada para generar nuevo. SI C. importante analizar la calidad de los datos.. A. conocimiento encaminado hacia la creación de mejores estrategias empresariales, es. El dicho "Garbage in, garbage out" que en español significa “Entra basura, sale basura”. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. quiere decir que "Si se ingresan datos incorrectos en nuestros sistemas, la salida resultante también será incorrecta”, esto se convierte en una desafortunada realidad cuando la calidad de los datos no se aborda.. Ocurre que muchos de los datos dentro de las organizaciones presentan impurezas, esto es, son inconsistentes, no están presentes, no pueden leerse o simplemente son erróneos. Esto afecta considerablemente a las organizaciones, ya que tienen que invertir más tiempo de lo planificado en resolver estas irregularidades, además de pérdidas de confianza, tiempo y dinero.. El presente trabajo de investigación propone un método para mejorar la calidad de los datos y así evitar que los datos lleguen al Data Warehouse (DW) con errores. Características de la realidad problemática. Una baja calidad de datos hace que las empresas incurran en costos innecesarios,. TE. . datos.. . La credibilidad de una organización desde el punto de vista de clientes y proveedores se ve afectada con decisiones tomadas en base a datos de baja calidad.. . La baja calidad de datos empeora con el tiempo, como por ejemplo, una base de clientes se vuelve obsoleta en un mes, debido a que estos se mueren, se divorcian,. B. IB. LI O. ya que se tiene que volver a realizar el proceso para corregir los errores en los. se casan, se mudan, etc. . Los continuos cambios en el sistema como las migraciones de sistemas, los cambios en los sistemas fuente, actualizaciones, datos antiguos y obsoletos, etc. generan muchísimos nuevos errores.. 1. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(13) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. . Pérdidas económicas considerables debido a la baja calidad de los datos en las empresas, que no fueron detectadas a tiempo.. S. 1.2. ANTECEDENTES. A. En el artículo “El valor de la calidad de datos y el ETL” escrito por T. Nguyen, se presenta. SI C. la importancia de los datos en las organizaciones, cada una de estas, se basa en los datos para producir información útil para que la toma de decisiones empresariales sea efectiva.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Por desgracia, se pone más énfasis en la información y la calidad de datos no recibe la atención que merece. El artículo muestra una reciente encuesta donde revela que el 75% de las organizaciones no tienen procesos de calidad de datos, ya que la mayoría de las empresas no han tomado medidas para determinar la gravedad de los problemas de calidad de datos y su impacto en el balance final, debido a que no admiten conscientemente que sus decisiones empresariales se basan en datos inexactos e incompletos. También se explica las razones por que la calidad de los datos que las empresas recopilan y analizan es tan pobre. Según la investigación, menciona que las razones varían, desde la naturaleza ambigua de los propios datos hasta la confianza en la perfección de la entrada de datos. En esta investigación se define la calidad de los datos como un proceso de organizar la información para que los registros individuales sean exactos, actualizados, completos, consistentes, oportunos, únicos, válidos y coherentes. La integración de la calidad de los datos y ETL minimiza el riesgo de fracaso, el costo y la cantidad de recursos necesarios. TE. para gestionar los datos [1].. Según Iván Amon Uribe en la tesis de grado “Guía metodológica para la selección de. LI O. técnicas de depuración de datos”, expone la importancia que deben tener los datos, y que estos deben contener la menor cantidad de errores posibles, ya que actualmente las. B. IB. organizaciones toman decisiones basadas en datos almacenados en sus bases o bodegas de datos. Según Andreas Bittere, vicepresidente de investigación de Garther “No existe una compañía en el planeta que no tenga un problema de calidad de datos y aquellas compañías que reconocen tenerlo, a menudo subestiman el tamaño de éste”. Se habla también sobre los problemas que presentan los datos, al reunir información de varias fuentes, o al interior de un archivo o una misma tabla en una base datos relacional, como por ejemplo el atributo nombre puede contener “Juan Alberto López Gómez” para un registro y para otro “Juan A. López G.” haciendo referencia a la misma persona o el nombre “Carlos” puede. 2 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(14) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. presentar errores de digitación con caracteres sobrantes, faltantes o transpuestos (“Carklos”, “Calos”, Catlos”). Por estas razones, esta tesis muestra una guía metodológica, que oriente al analista de los datos hacia una selección con mayor rigor científico, de las. S. técnicas adecuadas para tres de los posibles problemas que puedan presentar los datos:. A. detección de duplicados, valores atípicos incorrectos y valores faltantes, analizando. SI C. detalladamente cada uno de estos, proponiendo técnicas, métricas, diseño y una metodología para tratar de resolver o minimizar los errores [2].. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Otro estudio sobre “Calidad de datos en ingeniería de software empírica” realizado por B. Bianchi Gallo, muestra las dimensiones de la calidad de datos, donde cada dimensión tiene un aspecto particular que se define como factor de calidad, este factor se puede medir a través de métricas y un mismo factor de calidad puede medirse con diferentes métricas. A continuación se menciona algunas de estas dimensiones de calidad de datos: exactitud y unicidad, completitud, actualidad, volatilidad y consistencia. En este estudio también se menciona actividades y técnicas para mejorar la calidad en los datos. Las actividades relativas a la calidad de datos se refieren a cualquier proceso o transformación que se aplica a los datos con el objetivo de mejorar su calidad. Para llevar a cabo dichas actividades, se hace uso de distintas técnicas.. A continuación se describen algunas actividades relativas a la calidad de los datos: obtención de nueva información, estandarización, identificación de objetos, integración de datos, confiabilidad de las fuentes, composición de calidad, detección de errores, corrección de errores, optimización de costos. Se destaca el análisis de los posibles errores. TE. a encontrar en los datos generados, la limpieza de los datos, migrando los mismos a un. LI O. nuevo esquema que se adecúa mejor a la realidad planteada, y la construcción de un programa que automatiza la gran mayoría de los procesos de limpieza y migración [3].. B. IB. Siguiendo con la investigación, en el artículo “Calidad De Los Datos: Un Reto Para La Moderna Empresa” escrito por J. Vilalta Alonso y M. Delgado Fernández, nos habla sobre. el papel de los datos como soporte de las decisiones que toman los directivos. Para que las decisiones sean objetivas no basta con que se tomen basadas en los datos sino que, además, éstos deben tener la calidad adecuada. Se habla también de sistemas de calidad de datos que han ido evolucionando desde la simple detección y corrección de datos erróneos o duplicados hasta la consideración de que la detección y eliminación de errores forma parte importante de la gestión de los flujos de información que soportan los procesos fundamentales de las organizaciones. El artículo también presenta las iniciativas para la 3. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(15) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. garantía de la calidad de los datos, que son los llamados sistemas de evaluación de la calidad de los datos y metodologías o procedimientos de diagnóstico, dirigidos a evaluar el estado actual de los datos, de esta forma las organizaciones toman decisiones y pueden. S. descubrir las causas que los originan, para prevenir o reducir su ocurrencia [4].. A. En el artículo “La calidad de los datos: Su importancia para la gestión empresarial” escrito. SI C. por J. Heredia Rico y J. Vilalta Alonso, la calidad de los datos está asociada a un conjunto de dimensiones o atributos que son los que la definen. Un objetivo fundamental de la. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. definición de las dimensiones es poder establecer un lenguaje común y también focalizar los problemas de calidad de los datos y las oportunidades de mejora. De acuerdo a este artículo, las dimensiones más importantes, pues son las más utilizadas están la exactitud, la integridad, la consistencia y la coherencia. Los resultados de una inadecuada calidad en los datos implican procesos de toma de decisiones inadecuados, además resulta muy costoso el efecto sobre los clientes de la empresa. Este se puede materializar en la insatisfacción de los clientes debido a nombres incorrectos, facturas con cantidades erróneas, envío de productos o cantidades equivocadas, etc. En algunas empresas de producción, el personal relacionado con la producción, dedica un porcentaje no despreciable de su tiempo de trabajo a la corrección de errores en los datos, en otras ocasiones se tiene que realizar continuamente correcciones en la base de datos. Así mismo en el artículo se menciona una manera de medir la calidad de los datos, enfocándose en las dimensiones de calidad (la exactitud, la integridad, la consistencia y la coherencia). En principio, definir las dimensiones que sean importantes para el conjunto de datos en análisis, y después se deben. TE. establecer indicadores que permitan cuantificar o calificar el grado de adecuación del dato. LI O. atendiendo a cada dimensión [5].. Luego de haber estudiado todas estas investigaciones, podemos decir que la calidad de los. B. IB. datos es un proceso de continuo esfuerzo y que si no se toma en cuenta puede generar grandes pérdidas para las organizaciones.. 1.3. OBJETIVOS Objetivo General . Desarrollar un método para mejorar la calidad de los datos en el proceso de construcción de un DW.. 4 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(16) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. Objetivos Específicos Analizar los tipos de errores que se pueden encontrar en los datos.. . Analizar las dimensiones de la calidad de datos.. . Asociar los tipos de errores a las dimensiones de calidad.. . Desarrollar el método para mejorar la calidad de datos en el proceso de. SI C. A. S. . C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. construcción de un DW.. 1.4. FORMULACIÓN DEL PROBLEMA. ¿Cómo mejorar la calidad de los datos en el proceso de construcción de un DW?. 1.5. HIPÓTESIS. El desarrollo de un método permite mejorar la calidad de datos en el proceso de construcción de un DW.. 1.6. JUSTIFICACIÓN DEL PROBLEMA. TE. Muchos proyectos de DW han fracasado debido a problemas de calidad de datos. Es un hecho documentado que miles de millones de dólares se pierden debido a la calidad. LI O. deficiente de los datos. Más allá de la pérdida de recursos, hay descontento por parte de los clientes, disminución de los ingresos por ventas, erosión de la credibilidad e incapacidad. B. IB. para tomar decisiones de negocios. Tanto así que la consecuencia de la mala calidad de datos es suficiente para causar el fracaso de la organización. Mejorar la calidad de datos se ha convertido en una prioridad de la alta dirección. Es por esta razón que se desarrolla el presente trabajo de investigación con la finalidad de dar a conocer los procedimientos y métodos necesarios para mejorar la calidad de los datos en las organizaciones. Con lo que lograremos que las organizaciones confíen en sus datos, por ende en sus decisiones.. 5 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(17) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. 1.7. VIABILIDAD. S. La presente investigación es viable, ya que se dispone de los recursos necesarios para. A. poder llevarla a cabo. Sólo se requiere la predisposición de las organizaciones a. SI C. implementar estos procesos para analizar sus datos, ya que este análisis les permitirá tomar decisiones que mejorarán sus ventajas competitivas frente a su competencia. El proyecto es. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. sostenible y rentable económicamente si se realiza de forma correcta.. 1.8. LIMITACIONES. El presente trabajo presenta las siguientes limitaciones. . No se abarca la etapa de construcción completa de un proceso de DW porque no se encuentra dentro del alcance del trabajo de investigación, el mismo se enfoca en la mejora de la calidad de datos dentro del proceso ETL que es una etapa antes de la carga de datos en el DW.. . El método desarrollado es analítico, queda a disposición de otros trabajos de investigación la implementación y ejecución del mismo.. . Sólo se han considerado los tipos de errores que mayormente se presentan en los datos y a la vez los más importantes.. TE. . Existen varias dimensiones que reflejan distintos aspectos de los datos. Esto no. de características de la realidad, desde espaciales y temporales, hasta sociales. En el presente proyecto sólo se han considerado 4 dimensiones de calidad.. . En el proceso de corrección de datos se necesitará el apoyo de las áreas que se encargan de registrar la información en los sistemas, se espera que ellos se. B. IB. LI O. resulta ser una sorpresa al considerar que los datos pretenden representar todo tipo. comprometan con el proyecto, para de esta manera reflejar fielmente los datos con la realidad. . La calidad de los datos está en función a las 4 dimensiones de calidad consideradas.. 6 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(18) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. 1.9. ORGANIZACIÓN DEL ESTUDIO El presente trabajo de tesis consta de un total de cinco capítulos, divididos en secciones de. S. acuerdo al nivel de detalle que se consideró necesario.. A. El primer capítulo es el plan de investigación, incluye todo lo necesario con el. SI C. planteamiento del problema a estudiar, partiendo desde la realidad problemática, los antecedentes, el problema en concreto, la hipótesis planteada, los objetivos establecidos, la justificación del mismo y las limitaciones más relevantes que se detectaron durante el. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. desarrollo de la tesis.. El segundo capítulo, Marco Teórico, abarca los conceptos teóricos que sustentan el estudio relacionado con la mejora de calidad de datos en el proceso de construcción de un DW. En el tercer capítulo, Resultados, se realiza un análisis de los errores más comunes que se presentan en los datos, en qué consisten, por qué resulta importante su consideración, la forma de medirlo y se desarrolla el método para mejorar la calidad de datos. En el cuarto capítulo, Discusión de Resultados, se realiza una comparativa del antes y después de aplicar el método propuesto.. Finalmente en el quinto capítulo, se presentan las conclusiones a las cuales se llegaron. B. IB. LI O. TE. durante el proceso del trabajo de investigación y posibles trabajos futuros.. 7 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(19) C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. SI C. A. S. Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. B. IB. LI O. TE. CAPÍTULO II MARCO TEÓRICO. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(20) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. 2. MARCO TEÓRICO 2.1. INTELIGENCIA DEL NEGOCIO (BI). S. En el mundo actual de los negocios, las empresas que quieren mantenerse en un buen sitial. A. y ser competitivas no solo deben caracterizarse por la calidad de sus productos sino. SI C. también por el grado de información que se maneja con sus clientes, empleados, gerentes y socios. En el caso de los directivos de las empresas, se tienen que enfrentar. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. ante ciertos escenarios como disponer de más información pero menos tiempo para analizarla, sistemas de información que no ayuda a la toma de decisiones ágiles y además responsables de generar información urgente en muchos de los casos están saturados por las peticiones de información y no pueden cumplir con todas las peticiones. Es a partir de estos problemas que nace el concepto de Inteligencia de Negocios o sus siglas en inglés (Business Intelligence BI) el cual engloba los sistemas de información de una empresa para obtener algo más que información, se lo usa para obtener conocimiento. Las empresas en los últimos años han hecho grandes inversiones en sistemas ERP (Enterprise Resource Planning) y CRM (Customer Relationship Management) los cuales proveen una gran cantidad de datos para las empresas, las cuales ahora desean poder usar esta gran cantidad de información para la toma de decisiones y acciones para un mejor desempeño de sus negocios. Por dichas razones se están adoptando en las empresas en uso de sistemas BI [7].. Importancia de BI. B. IB. LI O. TE. 2.1.1.. Generalmente, en las organizaciones se genera una gran cantidad de datos e información que en muchos de los casos el análisis de la misma se convierte en un verdadero problema para los directivos.. Las tecnologías y los sistemas de BI permiten realizar un análisis mucho más ágil y comprensible para la toma de decisiones empresariales, las aplicaciones BI buscan incrementar la eficiencia en la organización. Podemos decir que la información, correctamente analizada e interpretada, es la mayor fuente de poder de las empresas, ya que da pistas muy claras acerca del camino a seguir en futuras acciones.. 9 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(21) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. 2.1.2.. Beneficios de BI. Entre los beneficios más importantes que brinda una aplicación BI a las. Minimiza el tiempo de carga de datos, debido a que todos los datos se. A. . S. organizaciones, se puede mencionar los siguientes [7]:. . SI C. encuentran en un mismo repositorio o fuente de información.. Los procesos de extracción y carga de la información son automáticos debido al uso de procesos definidos y metodologías.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. . Las herramientas BI permiten realizar análisis, y establecer comparaciones para la toma de decisiones.. . Permite a los usuarios no depender de reportes o informes programados, porque los mismos serán generados de manera dinámica.. . Posibilita la formulación preguntas y respuestas que son claves para el desempeño de la organización.. . Permite acceder y analizar directamente los indicadores de éxito.. Una solución BI empieza, desde los sistemas de origen o los sistemas operacionales de la organización es decir las bases de datos, archivos planos, hojas de cálculo, sistemas ERP que son los que generan datos de la organización. Sobre los datos obtenidos se realiza un proceso de extracción de los datos de sus diferentes fuentes, transformación que consiste en una estandarización de los datos. TE. y carga de los datos en un nuevo repositorio como un Data Warehouse o en varios. B. IB. LI O. Data Marts para de esta manera ser estructurados y presentados a los usuarios finales en forma de Reportes, Tableros de mando, etc.. 2.2. DEFINICIÓN DE DATAWAREHOUSE. Según Inmon [6], un DW es: “Una colección de datos que sirve de apoyo a la toma de decisiones, organizados por temas, integrados, no volátiles y en los que el concepto de tiempo varía respecto a los sistemas tradicionales”.. 10 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(22) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. Debe ser organizado por temas, debido a que los datos en el DW no se organizan acorde con las aplicaciones que los usan, sino que lo hacen acorde con su semántica, independientemente de qué aplicación los utilice. Por ejemplo, una compañía podría tener. S. datos organizados por clientes, proveedores, productos, etcétera, independientemente de la. A. aplicación que los vaya a utilizar.. SI C. Otra de las características que se citan en la definición anterior, y que es, a juicio del propio autor, la más importante de un DW, es la de la integración. Un DW se construye a. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. partir de los datos de las diversas fuentes de datos de una organización, lo que hace necesario un esfuerzo para “poner en común” los datos de las diferentes fuentes. Cada una de las fuentes de datos de la organización tendrá sus propios modelos de datos, sus propias políticas de asignación de nombres a campos, de codificación de valores, y muchas diferencias más, que hacen que el hecho de recolectar los datos de ellas para unirlos en un esquema común suponga un gran esfuerzo, tanto computacional como humano.. El esfuerzo computacional proviene del hecho que hay que recorrer todos los datos a integrar, y realizar una transformación para que encaje con el esquema centralizado que se adopte para el DW. El esfuerzo humano es debido a la necesidad de estudiar los modelos conceptuales, realizar uno común, unificar todas las políticas de asignaciones, y, en definitiva, toda tarea no automatizable que genere el proceso de la recolección e. TE. integración de los datos.. LI O. Otra característica importante es la de la no volatilidad. Existen varias razones por las que los datos de un DW no son volátiles. Las más importantes son:. B. IB. . Un DW se construye para dar soporte a la toma de decisiones, y este tipo de tareas pueden requerir el análisis de datos de diferentes momentos del tiempo, para realizar análisis comparativos.. . Mantener diferentes versiones temporales de los datos permite recuperar el estado de los datos de la organización en cualquier instante, de modo que se pueden deshacer efectos indeseados de procesamientos erróneos.. Por tanto, los datos de un DW no sufren actualizaciones. En él, se mantienen diferentes versiones temporales de dichos datos, y, por tanto, el proceso que se realiza en vez de una 11 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(23) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. actualización de los datos es una inserción de los nuevos datos, a los que se añade una marca temporal que los distingue de las diferentes versiones temporales ya existentes de dichos datos.. S. La siguiente característica mencionada por Inmon en su definición se refiere a que el. . SI C. A. tiempo es un factor diferenciador en los datos del DW, y con ello se quiere decir que:. En los sistemas tradicionales, la caducidad de los datos, o su validez no suele. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. exceder de, como mucho, dos o tres meses. En muchos casos los datos varían todos los días. Mientras tanto, los datos del DW tienen un horizonte temporal de años.. . En los sistemas de gestión, los datos con los que se trabaja son los datos actuales, mientras que los datos del DW pueden verse como una serie de “snapshots” tomados en un momento del tiempo, que no sufren actualizaciones.. . La estructura de los datos operacionales puede contener, o no, alguna referencia temporal. En cambio, la fecha siempre forma parte de la clave de los datos en el DW, para distinguir las diferentes versiones de los datos, como ya se había mencionado.. Es importante destacar que un DW no es un producto, por lo tanto no puede comprarse, este debe ser construido paso a paso. Es de vital importancia entender esto al plantearse implantar un DW en una organización. Queda claro que no podemos comprarlo, podemos. TE. encontrar herramientas que ayuden a la construcción de este, o gestores de bases de datos que aporten facilidades para la construcción de un DW. El hecho de que sea algo a. LI O. construir implica que se requiere un periodo de tiempo que variará según las necesidades. B. IB. de la organización hasta que el sistema esté en perfecto funcionamiento [6].. 2.2.1.. Diseño de un Data Warehouse De acuerdo a la definición mencionada anteriormente, un DW recoge los datos de diferentes fuentes, en un proceso que se denominaría adquisición, los almacena en una base de datos relacional, y posteriormente los ofrece a los usuarios en la fase de acceso a los datos. Este esquema da pie a pensar en tres módulos principales a tener en cuenta a la hora de realizar un diseño de un sistema de DW, que son [6]:. 12 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(24) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. . Componente de acceso. . Componente de almacenamiento. . Componente de adquisición. A. S. Componente de Acceso. SI C. Una de las partes principales de todo el sistema de DW es aquel que proporciona a los usuarios el acceso a los datos que éste alberga. Sin este componente, los datos. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. del DW no valdrían para nada. Este módulo debe ser capaz de entender las peticiones que los usuarios realicen, proporcionando una interfaz sencilla, clara y potente, que permita a los usuarios hacer un uso efectivo de los datos. Para ello, debe ser capaz de realizar peticiones al subsistema de almacenamiento. El diseño de interfaces de usuario cae fuera del ´ámbito de este capítulo, por lo que no se ahondara más en ese sentido, pero sí deben destacarse varios aspectos relacionados con el DW: . El sistema debe distinguir entre usuarios y los posibles permisos que estos tienen en el ámbito del sistema, ya que de ello dependerá el conjunto de acciones que pueda realizar el usuario sobre el DW. Deberá por tanto disponerse de información acerca de usuarios y permisos.. . El componente de acceso deberá conocer de qué datos dispone el DW,. B. IB. LI O. TE. para poder proporcionar al usuario dicha información, y que éste pueda realizar sus consultas. Será necesario, por tanto, que se tenga acceso a un. catálogo de los datos disponibles para cada tipo de usuario.. Por otro lado, es necesario destacar que no son sólo los usuarios los que acceden, sino que diversas aplicaciones pueden requerir el acceso al DW. Aunque las aplicaciones de Data Mining son las más frecuentes, debe tenerse en cuenta que pueden requerir acceso: . Simples consultas de bases de datos. . Generadores de informes. . Aplicaciones personalizadas. . Paquetes de negocios. . Facilidades incluidas en productos (hojas de cálculo, por ejemplo) 13. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(25) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. Componente de Almacenamiento Este módulo es el que gestiona el DW, entendiendo por DW la base de datos que contiene los datos. Pero si bien el DW es una base de datos relacional, hay que. S. apuntar que tiene una serie de características especiales. Entre éstas, se destacan a. . SI C. A. continuación las más relevantes de cara al desarrollo e implantación de un DW:. Gran número de tablas, proveniente de las diferentes fuentes de datos de la. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. organización. . Tablas extremadamente grandes, ya que albergan datos provenientes de toda la organización.. . Alto nivel de interdependencia. . Método de acceso no predefinido, ya que cada tipo de usuario realiza peticiones bien diferenciadas.. . Acceso en modo sólo lectura para usuarios, ya que, como se ha indicado, el DW surge para los propósitos de análisis. Los cambios se siguen produciendo en las fuentes originales de datos.. . Los datos se refrescan periódicamente de múltiples fuentes. Debido a que las fuentes de las que proviene el DW sufren cambios, sería necesario incluir dichos cambios en el DW para que estén disponibles para las tareas de análisis.. B. IB. LI O. TE. . Alto porcentaje de los datos históricos. Como se ha indicado, para permitir el análisis temporal, en el DW los datos no se modifican, sino que se mantienen diferentes versiones temporales de los datos. Esto hace que, tras cierto tiempo de funcionamiento del sistema, se hayan producido numerosas versiones y que, por tanto, la mayoría de los datos sean datos históricos.. Las anteriores características se pueden agrupar en tres categorías, que tienen que tenerse en cuenta a medida que se construye el DW: A. Alto volumen de datos y accesos no predefinidos: Los expertos en bases de datos relacionales saben que la combinación de grandes volúmenes de datos y accesos no predefinidos es toxica para el rendimiento. Por tanto, se. 14 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(26) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. tendrá un problema de rendimiento/flexibilidad, al que podrán darse las siguientes soluciones: . Anticiparse al peor caso posible, lo cual puede tener excesivos. Evitar que los usuarios tengan total libertad de acción,. A. . S. requerimientos.. . SI C. estableciendo monitorización para establecer tiempos y cargas. Pre computar parte de las consultas, lo cual puede hacer que se necesite mucho espacio para las dichas consultas pre computadas. Establecer patrones fijos de consulta, a costa de perder flexibilidad. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. . en el sistema.. Cualquiera de estas soluciones tiene sus inconvenientes, ya sea para el usuario, que dispondrá de menor flexibilidad a la hora de acceder al sistema, o para el desarrollador, que deberá emplear tiempo en preparar plantillas, o reservando espacio para datos pre computados, por citar alguna de las tareas.. B. Complejidad del entorno: Es una de las trampas de la construcción, debido a que muchos desarrolladores no se dan cuenta de la complejidad que se puede llegar a tener debido principalmente a: . Número de tablas. A medida que crece el número de tablas se torna más complicado saber qué contiene cada tabla, por lo que. B. IB. LI O. TE. será necesario un catálogo de tablas más sofisticado que una simple lista de contenidos. Este nuevo catálogo debe organizarse de tal modo que los nuevos usuarios puedan saber qué contiene.. . Interdependencia de tablas. Además de saber qué contienen las tablas, será necesario conocer las relaciones entre ellas. Como consecuencia directa de esto, el mencionado catálogo se complica. Esto ha llevado a que la mayoría de productos se centran en proporcionar capacidades para gestionar catálogos de una manera más sofisticada.. C. Tiempo: Se tendrán que mantener cientos de tablas cuyos datos son refrescados en momentos diferentes. Por lo tanto, es crucial para las. 15 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(27) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. consultas el momento en que los datos son actualizados, lo que hace necesario que existan monitores de tiempo y de sincronismo.. S. Componente de Adquisición. SI C. los datos que estos usan, para que se almacenen en el DW.. A. Este componente supone el interfaz con los sistemas operacionales, ya que recoge. Su tarea es recoger los datos y hacerlos disponibles para el sistema de. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. almacenamiento. Desde un punto de vista global, esta tarea parece simple: . Identificar los datos que se quieren cargar en el DW y cargarlos.. Por desgracia, cuando se presta más atención a los detalles, esto no es tan simple, ya que surgen múltiples problemas cuando se trata de integrar datos de múltiples fuentes.. Desde el momento en que se decide qué datos formarán parte del DW, empieza la tarea de integración. Una vez establecidos qué datos se incluirán, se procederá a buscar en las fuentes de datos la integración dichos datos.. El primer problema que se plantea al realizar esta tarea es la heterogeneidad de las fuentes, que dificultará la tarea de encontrar estos datos. Esta dificultad es debida a que un mismo dato en distintas bases de datos puede tener: Diferente nombre. . Diferentes tipos de almacenamiento. . Diferentes asignaciones de valores. . Diferente representación interna, en el caso de que los datos estén. B. IB. LI O. TE. . almacenados en diferentes gestores. El primer problema, que puede denominarse problema de asignación de nombres, se refiere al hecho de que, en las diversas fuentes de datos, las políticas de asignación de nombres pueden ser diferentes. Esto da como resultado que tablas, atributos y demás elementos de una base de datos no puedan ser identificados de manera univoca por su nombre. No se puede suponer que dos elementos de diferentes fuentes son iguales por tener el mismo nombre, ni que son diferentes 16. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(28) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. sólo por tener nombres diferentes. Será necesario consultar las descripciones de los datos para comprobar qué datos son los buscados. El siguiente punto hace notar que tampoco el tipo utilizado para representar un. S. dato tiene por qué ayudar a la tarea de encontrar atributos iguales. Dos datos. A. equivalentes no tienen por qué estar almacenados bajo el mismo tipo de. SI C. representación.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Y, análogamente lo que ocurría con el nombre, tampoco el hecho de que dos datos sean del mismo tipo quiere decir nada acerca de su igualdad. Por ´último, la misma información puede estar representada con diferentes valores de atributos, sean del mismo tipo o no.. También, como ocurría en los dos casos anteriores la asignación del mismo valor de atributo no quiere decir que se esté hablando de la misma información real. Se puede observar que no es sencillo definir un método para automatizar la búsqueda de los datos a través de la base de datos de la organización. Una vez se ha identificado qué datos y de qué bases de datos pasarán a formar parte del DW, se procederá con la integración en sí, lo que conlleva: La recolección de los datos origen. . La traducción de dichos datos al formato con el que se almacenarán en el. TE. . B. IB. LI O. . DW. El almacenamiento en el DW.. La complejidad de esta tarea no se centra ya en la dificultad de recolección, ya que esta tarea suele ser susceptible de automatización. El problema en este caso es que es necesario traducir un gran volumen de datos de múltiples formatos y transportar dichos datos de su ubicación original al DW, lo cual puede requerir el uso de redes de ordenadores. No obstante el principal problema suele estar en la integración. Una vez se realiza esta integración, se dispone de los primeros datos en el DW, por lo que estará disponible para su uso.. 17 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(29) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. Por tanto, las funciones del módulo de adquisición pueden resumirse en las siguientes: . Extracción de datos: Este proceso contempla la recolección de datos de. S. las fuentes seleccionadas, así como la planificación de futuras extracciones. A. que se realizarán una y otra vez durante la vida del DW para “refrescar” el . SI C. contenido de éste.. Limpieza de datos: Ocurre que muchos de los datos presentan impurezas,. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. esto es, son inconsistentes, no están presentes, no pueden leerse o simplemente son erróneos.. Existen múltiples causas por las que los datos pueden ser erróneos: pueden ser inexactos, o puede que hagan referencia a datos inexistentes (un registro de venta con un número de cliente que no existe), o valores simplemente fuera de rango (una persona de 200 años de edad). La limpieza de datos es una tarea ardua, que no puede realizarse de manera plena, ya que la cantidad de datos hace que no sea eficiente la comprobación de todos y cada uno de los valores. En cambio, si pueden realizarse una serie de tareas automáticas que evitarán que ciertos errores lleguen al DW. Así, puede comprobarse de manera automática si los datos están fuera de rango, o si no contienen valor alguno, y definir políticas para ambos casos.. . B. Formato de los datos: Una vez que los datos están limpios, será necesario amoldarlos a los formatos con los que se almacenarán en el DW, ya que éstos pueden diferir de los originales.. Procesamiento de la mezcla: Si los datos provienen de una única fuente, no existirá este problema, pero en muchos casos, los datos provienen de. IB. LI O. TE. . fuentes diversas lo que hace necesario tratar las disparidades introducidas por cada fuente. . Tratamiento de claves: Una de las necesidades básicas de toda base de datos es el poder identificar los datos por una clave. Esto no es diferente en un DW, así que deberán definirse claves para todos los datos. El problema es que uno de los puntos en que más suelen diferir los diferentes gestores es en el método de identificación de sus datos, por lo que será necesario. 18 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(30) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. definir claves que puedan ser traducidas a partir de todas las claves origen. Este proceso puede parecer una particularización del anterior, pero por su importancia y complejidad suele requerir un tratamiento aparte. Proceso de purga: Puede ocurrir que no se quiera almacenar todas las. S. . A. ocurrencias de datos en el DW, y que se desee que datos que cumplan una. SI C. serie de condiciones no estén presentes en éste. Para ello, es necesario un proceso que “filtre” este tipo de información, buscando el patrón deseado, y excluyéndolo de la lista a almacenar al DW.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. . Carga de datos: Por último, una vez que los datos han pasado por todo el. proceso de adecuación, sólo resta almacenarlos en lo que será su nuevo hogar, el DW.. Además, este componente debe encargarse de monitorizar los cambios que se produzcan en los datos fuente, para poder integrar éstos en el DW. Cada vez que se requiera una carga de nuevos datos, se realizará sobre éstos el mismo proceso que se realizó la primera vez, por lo que debe almacenarse la información necesaria para repetir el proceso de manera automática.. Cabe comentar que el orden de las tareas de preprocesado puede variar para cada caso, de modo que debe estudiarse en qué orden se produce una limpieza de los datos mejor y más eficiente. ETL. TE. 2.2.2.. B. IB. LI O. ETL son las siglas en inglés de extraer, transformar y cargar (Extract, Transform and Load). Es un proceso que permite mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o DW para analizar, o en otro sistema operacional para apoyar un proceso de negocio. La primera parte del proceso ETL consiste en extraer los datos desde las fuentes. La mayoría de los proyectos de almacenamiento de datos consolidan datos de diferentes sistemas de fuentes de datos. Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Por otro lado los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no 19. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(31) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. relacionales u otras estructuras diferentes. La extracción convierte los datos en un formato preparado para iniciar el proceso de transformación. Es necesario que esta extracción cause un impacto mínimo en los sistemas fuente. La fase de. S. transformación aplica una serie de reglas de negocio o funciones sobre los datos. A. extraídos para convertirlos en datos que serán cargados.. SI C. Algunas fuentes de datos requieren alguna pequeña manipulación de los datos. No obstante, en otros casos pueden ser necesarias aplicar algunas de las siguientes. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. transformaciones: . Seleccionar sólo ciertas columnas para su carga.. . Traducir códigos.. . Codificar valores libres.. . Derivar nuevos valores calculados.. . Unir datos de múltiples fuentes.. . Sumarizar múltiples filas de datos.. . Generación de campos clave en el destino.. . Transponer o pivotar.. Estas son sólo algunas de las transformaciones estándar que se aplican, pero dependerá de cada caso concreto aplicar algunas operaciones específicas. La fase de carga es el momento en el cual los datos de la fase anterior son cargados en el. TE. destino. Dependiendo de los requerimientos de la organización, este proceso puede. B. IB. LI O. abarcar una amplia variedad de procesos diferentes.. Algunos almacenes de datos sobrescriben información antigua con nuevos datos. Los sistemas más complejos pueden mantener un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un dato. La dificultad del proceso del proceso ETL de un DW. hace que se cometan errores. Entre los errores más comunes destacan los siguientes: . La periodicidad de los procesos ETL no están bien definida.. . No se realiza una limpieza de datos.. . No se realiza una ponderación de la calidad de los datos. 20. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(32) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. . Los procesos ETL no están bien definidos.. La primera fase de un proyecto de minería de datos es un proceso de ETL, la extracción, transformación y carga de la información de los datos necesarios. Pero,. S. a pesar de ser la menos llamativa, es fundamental para su éxito. La fase de ETL es. . SI C. A. [6]:. Crítica, porque el resto de las fases del proyecto se alimentan de ella y no. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. pueden comenzar hasta que la ETL ha concluido satisfactoriamente. . Una fuente potencial de costes inesperados dado que, si bien no debería absorber más allá del 60 % del tiempo de ejecución del proyecto de minería de datos, no es infrecuente que llegue a acaparar el 90 % de ´el y que, además, acabe provocando retrasos importantes en su ejecución.. . Específica, porque la información que se extrae de las bases de datos empresariales para la realización de estudios de minería de datos tiene que ajustarse a unos criterios de contenido, calidad y formato a los que los responsables de los sistemas de información de las empresas no están habituados.. . Difícil, porque conlleva el extraer e integrar datos de fuentes muy diversas y plataformas muchas veces heterogéneas y acceder a información contenida en sistemas que no están concebidos ni diseñados para las. B. IB. LI O. TE. exigencias de un proceso masivo de análisis de datos.. . Multidisciplinar, porque no se trata de una actividad meramente técnica: implica la adquisición en un plazo de tiempo corto de la visión de negocio necesaria para comprender el valor funcional de la información bajo, además, las ópticas distintas de los distintos usuarios finales y los distintos departamentos de la empresa.. 2.3. CALIDAD DE DATOS El objetivo del presente capítulo es abordar la temática de la calidad en los datos, llegando a conocer sus conceptos y características fundamentales, y sobretodo comprender su relevancia para nuestro estudio.. 21 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

(33) Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT. Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse. En primera instancia se introducen sus principales conceptos, las dimensiones y factores de calidad. Luego se explican las técnicas y actividades que se llevan a cabo en el área de la calidad de datos, y en línea con este último punto se trata la limpieza de datos, cuyo. S. objetivo final es la mejora en la calidad de los mismos.. A. Previo a cualquier análisis de datos, es importante conocer acerca de la relevancia de la. SI C. calidad de datos. Es por esto que se menciona de manera breve de qué trata la calidad de datos y el motivo por el cual resulta importante (por no decir imprescindible) su estudio.. C Y A M DE A TE C I M EN Á C TI IA C S A S FÍ. Finalmente se trata cuáles son las áreas de investigación que le competen.. 2.3.1.. Antecedentes. Las organizaciones invierten mucho dinero y esfuerzo en mejorar sus sistemas de información en pro de agilizar sus procesos y optimizar sus productos, cuando los datos no se encuentran en un estado óptimo estos proyectos no generan la rentabilidad esperada y el costo de devolverse en el proceso puede salir más elevado que el proyecto mismo.. Los datos son un activo muy importante de la empresa, siendo fundamental que éstos cumplan con todos los atributos de calidad manejados en la actualidad; desde que existen los sistemas de información ha existido la preocupación de que los datos sean correctos y se ha buscado la forma de prevenir y corregir los errores que se puedan presentar en ellos. Inicialmente la calidad se realizaba de forma. TE. manual o con programas que no fueron desarrollados en lenguajes para ese uso.. B. IB. LI O. Los primeros sistemas de Calidad de Datos fueron desarrollados por el gobierno de Estados Unidos a principio de los 80, en un sistema denominado NCOA (National Change Of Address Registry), el cual se creó para regular los cambios de domicilio, fallecimientos, bodas, divorcios, etc. A principio de los 90 se creó en España un sistema especializado en Calidad de Datos para corregir o informar el código postal en la dirección de los clientes de las principales entidades financieras del país, en ese entonces se utilizó una técnica muy primitiva llamada “Fuerza bruta” y no implementaba las metodologías que tienen ahora los sistemas modernos de Calidad de Datos. Hoy en día aunque se está trabajando en nuevas metodologías y hay tecnología para el manejo de la Calidad de Datos falta crear un poco más de conciencia en 22. Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/.

Referencias

Documento similar

Dichos estudios se ven facilitados con la obtención y análisis de ADN a partir de muestras como las heces, pelos y restos de 1 Esta obra ha sido publicada bajo la licencia

Palabras Clave: Logística, control de calidad, uva de mesa VIII Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,

1 Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajo la misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajo la misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajo la misma licencia 2.5 Perú.. Para ver una copia de dicha licencia,