CAPÍTULO 3. APLICACIÓN DE LA HERRAMIENTA PMMARC 2.0
3.5 Comprobación de los cambios realizados
En las Figura 30 y Figura 31 se presenta un resumen de los cambios realizados una vez culminado el trabajo con el archivo global_1_350_150 en la limpieza de los años, en el mismo se muestra que inicialmente habían 67 años incorrectos y luego de estandarizar quedaron 12, no han sido eliminados todos los errores encontrados debido a que se requiere de un especialista para su total corrección.
53
Figura 30: Años incorrectos (antes)
Figura 31:Años incorrectos (después)
En el caso de los idiomas se usó el catálogo global_1_350_150 y solo se encontró un idioma incorrecto, el mismo fue eliminado de forma satisfactoria una vez que se corrigió manual como se muestra en las Figura 32 y Figura 33.
54
Figura 33:Lista de idiomas incorrectos(después)
3.6 Conclusiones parciales
En el presente capítulo se puso en práctica la versión 2.0 de la herramienta PMMarc. Se expusieron las nuevas funcionalidades dándole solución a las deficiencias encontradas en la versión anterior. Para la realización de la misma se hizo uso de un catálogo de la UCLV y de dos sub catálogos que son global_1_350_150 y 500_UCLV_OK, se analizaron la cantidad de idiomas y años de publicación incorrectos. Se determinaron los campos mínimos ausentes por tipo de material, la frecuencia de campos presentes teniendo en cuenta el nivel completo, así como los campos ausentes más comunes por tipo de material. Se elaboraron reportes para controlar la cantidad de libros sin editoriales, las materias y su tipo de material, además de un reporte que resume por tipo de material los campos mínimos ausentes y la frecuencia de campos. Además, se realizó un análisis
de la situación del archivo global_1_350_150 antes y después donde se apreció como los cambios realizados por la herramienta mejoran las estadísticas del catálogo analizado y por tanto mejora la calidad de los metadatos específicamente de los campos analizados.
55 CONCLUSIONES
1. Se realizó un análisis crítico de la herramienta PMMarc 1.0 a partir de los factores determinantes para el perfilado de datos aplicado a metadatos bibliográficos.
2. Se incorporaron nuevas funcionalidades a la herramienta PMMarc tales como la detección de títulos duplicados, los años de publicación incorrectos y la estandarización de valores en varios campos de los registros bibliográficos con formato MARC 21 dándole solución a las deficiencias encontradas en la versión anterior.
3. Se confeccionaron reportes a partir de la información que brinda la nueva versión de la herramienta de perfilado al aplicarse en catálogos reales.
56 RECOMENDACIONES
Extender la herramienta PMMarc de manera que permita la incorporación de otros formatos de entrada y salida compatibles con MARC 21.
Aplicar la herramienta en los catálogos de las bibliotecas y centros de documentación del país.
57 REFERENCIAS BIBLIOGRÁFICAS
Alvarez, Y. A. (2015) ‘Análisis de la calidad de datos en fuentes de la suite ABCD.’
Amón, I. and Jiménez Ramírez, C. (2009) ‘Hacia una metodología para la selección de técnicas de depuración de datos.’
Barateiro, J. and Galhardas, H. (2005) ‘A Survey of Data Quality Tools. Datenbank-Spektrum.’ Batini, C. and Scannapieco, M. (2016) ‘Data and Information Quality.Dimensions, Principles and Techniques.’
Beall, J. (2006) ‘Metadata and Data Quality Problems in the Digital Library’, Journal of Digital Information, p. 6,20.
BERNERS-LEE, T. (1997) ‘Metadata Architecture.’
Borges Zamora, M. (2016) ‘Herramienta de perfilado de metadatos en formato MARC 21’, p. 19.
Christen, P. (2006) ‘A Comparison of Personal Name Matching: Techniques and Practical Issues.’
Cohen, W. W., Ravikumar, P. and Fienberg, S. E. (2003) ‘A Comparison of String Distance Metrics for Name-Matching Tasks in Proceedings of II Web.’
Elmagarmid, A. K., Ipeirotis, P. G. and Verykios, V. S. (2007) ‘Duplicate Record Detection: A Survey. Knowledge and Data Engineering IEEE Transactions on Publication.’
Galvez, C. (2006) ‘Aplicación de transductores de estado-finito a los procesos de unificación de término.’
García Mendoza, J. L. et al. (2016) ‘«Medición de la completitud de registros bibliográficos con formato MARC 21 de universidades cubanas», en 10a Conferencia internacional de Ciencias Empresariales (CICE).’
Guevara Torres, P. M. (2016) ‘Medición de la completitud y detección de duplicados en metadatos con formato MARC 21.’
Hall, P. A. V. and Dowling, G. R. (1980) ‘Approximate string matching. ACM Computing Surveys.’
‘ISO International Standard: Database Language SQL – part 2’ (2016). Kate, B. (1996) ‘No Title.’
Lamarca Lapuente, M. J. (2013) Hipertexto: El nuevo concepto de documento en la cultura de la
58 Levenshtein, V. I. (1966) ‘Binary Code capable of correcting deletions, insertions and reversal.’ Li, C., Wang, B. and Yang, X. (2007) ‘VGRAM: Improving Performance of Approximate Queries on String Collections Using Variable-Length Grams in VLDB’07.’
Medrano, J. F., Figuerola, C. G. and Alonso Berrocal, J. L. (2012) ‘Repositorios digitales en España y calidad de los metadatos.’
Müller, H. and Freytag, J.-C. (2005) ‘Problems, methods, and challenges in comprehensive data cleansing, Professoren des Inst. Für Informatik.’
Navarro, G. (2001) ‘A guided tour to approximate string matching. ACM Comput. Survey.’ ‘Norma cubana 154’ (2002), pp. 39–40.
‘Norma MARC 21’ (2016).
OCLC (2016) ‘Marcas comerciales y/o marcas de servicios nacionales e internacionales de OCLC y de sus miembros.’
Power Data, E. en G. de D. (2010) ‘La Calidad de los Datos: una radiografía completa.’ Rosie, H. (2014) ‘Repository v. Catalogue, Top tips for thesis metadata management. EThOS Metadata Manager.’
Rumbaugh, J. (2000) ‘Modelado Y Diseño Orientado a Objetos. Metodología OMT.’ Schmuller, J. (2000) ‘Aprendiendo UML en 24 horas.’
Sheldon, T. (2001) Metadata. Available at: www.linktionary.com/m/metadata.html. de Smet, E. (2009) ‘The abc of ABCD : the Reference Manua l.’
Smit, T. F. and Waterm, M. S. (1981) ‘Identification of common molecular subsequences. Journal Molecular Biology,.’
Styles, R., Ayers, D. and Shabir, N. (2008) ‘SEMANTIC M A R C , M A R C 2 1 A N D T H E SEMANTIC WEB.’
Tabares Morales, V. et al. (no date) ‘Evaluación de la calidad de metadatos en repositorios digitales de objetos de aprendizaje.’, 36, pp. 183–195.
Tamilselvi, J. J. and Saravanan, V. (2008) ‘A Unified Framework and Sequential Data Cleaning Approach for a Data Warehouse. International Journal of Computer Science and Network Security.’
Türker, C. and Gertz, M. (2001) ‘Semantic integrity support in SQL: 1999 and commercial (object-) relational database management systems. The VLDB Journal.’
59 Theoretical Computer Science.’
Veloso Lara, A. (2012) ‘Evaluación del Sistema de Recuperación de Información de la herramienta de gestión bibliotecaria ABCD versión 1.0.6.’
Winkler, W. E. (2006) ‘Overview of record linkage and current research directions.’
Zobel, J. and Dart, P. (1996) ‘Phonetic String Matching: Lessons from Information Retrieval in Proceedings of the 19th annual international ACM SIGIR conference on Research and
60
Catálogo Cantidad de registros
UCLV 18 548
500_UCLV_OK 500