Diseño, desarrollo e implementación de una base de datos georreferenciada: aves del sureste mexicano, versión 1.0
MSC. Carlos J. Alvarado-Azpeitia Dr. Christian Kampichler Dr. Stefan Arriaga Weiss. [email protected]
Resumen
Se presenta la experiencia obtenida en la conformación de un banco de información automatizada para su empleo en investigaciones sobre aves del sureste mexicano. En primera instancia se definieron las variables apropiadas relativas a estudios de distribución y diversidad de este taxón. Posteriormente se diseñó una base de datos relacional incluyendo 13 Tablas y 57 variables, distribuidos en las secciones de edición y captura de registros de aves, ubicación, colecciones y citas bibliográficas. El diseño de la interfaz de usuario fue simple y ágil. Se estableció seguridad a nivel de hardware y software. Se presentan los procedimientos de captura, así como control de calidad para asegurar la integridad de la información. Se ha avanzado en la captura de 4640 registros.
Introducción
Una de las herramientas informáticas más importantes lo constituye la tecnología de bases de datos relacionales (RDBMS), en el caso de las ciencias naturales, a partir del arribo de la microcomputadora hace aproximadamente 20 años, ha cambiado profundamente el estilo de trabajo de ecólogos y biólogos que han venido colectando datos en el campo. Anteriormente se produjeron montañas de papel con listas de individuos o especies registradas, hoy toda esta información se almacena fácilmente en los discos duros de computadoras. En las ciencias de la Biogeografía y Ecología, uno de los principales retos es el de identificar y comprender los patrones de distribución de especies así como su riqueza en espacios globales, regionales o locales. Sus procesos históricos y evolutivos a gran escala y elementos fundamentalmente locales como el clima, heterogeneidad ambiental e interacciones bióticas. (Rodriguez y Vázquez, 2003). Además en los últimos diez años, los avances en tecnología de la información que incluye una gran capacidad de almacenamiento electrónico, Internet, www y tecnología de
información para su libre acceso, están creando una revolución en la manera en que la información sobre biodiversidad es creada, mantenida, distribuida y usada, considerando además el potencial de mucho más por venir (Soberon y Peterson, 2003). De este modo en el presente trabajo se presenta la experiencia obtenida en el desarrollo del sistema de información relacional, el cual consideramos de interés ya que muestra el modo en que es concebido, analizado, desarrollado, alimentado y mantenido, así como sus perspectivas de desarrollo futuro.
Es importante señalar que la alternativa elegida en primera instancia para el almacenaje de datos sobre Aves fue el sistema de base de datos BIOTICA 4.3., desarrollada por la Comisión Nacional para el Conocimiento y Uso de la Biodiversidad (CONABIO), tal como lo menciona el manual de usuario de este sistema: “El sistema de información Biótica, ha sido diseñado especialmente para el manejo de datos curatoriales, nomenclaturales, geográficos, bibliográficos y de parámetros ecológicos.
Tiene el propósito de ayudar, de una forma confiable y sencilla, en la captura y actualización de datos”. Con esta perspectiva se adquirió el software, el manual y se implementó una capacitación a los integrantes del proyecto. Sin embargo aún con lo potente y completo de éste sistema, al iniciar la captura de los datos, empezó a ser evidente de que Biotica 4.3 no cumplía con una necesidad básica del proyecto: una captura ágil por registro, considerando que se requería capturar decenas de miles de registros de aves, la perspectiva de hacerlo con un manejador ágil se presentaba como un imperativo. Debido a lo anterior es que surge la necesidad de crear un sistema de almacenaje y de manejo de datos de gran multidimensionalidad relacionada a las Aves del Sureste de México.
Objetivos
Analizar la información e identificar y definir de variables biológicas y ecológicas de interés, relacionadas a las aves. Diseñar un esquema relacional compatible con la dimensionalidad de los datos. Diseñar las interfaces de usuario: captura de ejemplares, registro de ubicación y georreferenciación. Aplicar elementos de control de calidad, en la captura de los datos.
Metas
Se tiene como perspectiva inmediata el desarrollo de otras secciones de manejo de información, requeridas por el proyecto general, así como avanzar en las prestaciones generales de la aplicación, incluyendo consultas, informes, visualización de resultados entre otras. Además como trabajos futuros, es necesario liberar la aplicación para que pueda ser ejecutada como un software independiente, primero en una esquema de manejo individual y posteriormente migrar la plataforma hacia un manejador potente que permita la captura multiusuario de manera eficiente, se contempla usar SQL Server. Se pretende integrar al Banco de información, variables climáticas, ambientales, antropocéntricas vertidos en mapas de distribución, para dimensionar y explicar en la medida de lo posible los patrones de distribución de las aves en el Sureste de México.
Método
Con respecto a las variables a incluir en el sistema, se seleccionaron aquellas más relevantes para identificar a las aves, describir su ubicación, así como indicar la fuente de consulta, entre otras. Además se organizó la información en un diccionario de datos de manera tabular para identificar las variables asociadas con las entidades, tipos de datos y un nombre del campo propuesto, entre otras variables propias del desarrollo. Para fines de diseño, se agruparon las variables en entidades-tablas y presentadas para su visualización en esquemas de entidad – relación (Kroenke, 1996). El desarrollo de la aplicación se llevó a cabo empleando ACCESS de Microsoft. Se definieron los tipos de datos, tamaño de campo, así también se indexaron aquellos que lo requirieran de acuerdo a la estructura desarrollada.
Resultados
Diseño y Desarrollo. Producto del análisis de la información y variables a incluir en la base de datos, se definieron 4 tipos de entidades; Un primer tipo que incluye las entidades 1 y 2 relacionada con la identificación de las especies de aves, véase tabla 1.; otro segundo que incluye a las entidades 3 y 4 relativas al sitio o distribución de captura o registro de los organismos; el tercer tipo relacionado a las entidades 5-9 clasificatorias de la información sobre aves, tal como tipo de estudio, colecciones, etc. y por último un cuarto tipo de entidades de la
Tabla 1. Número de Variables incluidas en las tablas y entidades.
Entidad / Tabla: Aves Sureste Número Variables/ Tabla Número Variables/Entidad Entidad Número Genero y Especie 5 (5) 1 Tipo de dato 1 (1) 2 Ubicación 29 (24) 3 Estado, municipio 3 (3) 4 Registro Colección 3 (2) 5 Colección: 6 (4) 6 Tipo fuente 2 (2) 7 Cita Bibliografica: 4 (2) 8 Tipo de Estudio 1 (1) 9 Captura nombre: 1 (1) 10 Proceso_status 3 (3) 11 Estructura 25 (7) 12 Ubicacion Status 2 (2) 13
Figura 1. Puede visualizarse con cierto detalle que las interacciones entre las tablas y entidades se agrupan en 3 niveles, La tabla Estructura (a la izquierda), recibe o agrupa la información incluida en las entidades centrales y entidades complementarias (derecha). Como se hace evidente con la simbología del tipo de relación, el identificador de cada entidad es indicado con el valor 1, que luego será tomado en la relación con otras tablas y repetido cada vez que lo requieran los datos, lo que se muestra con el símbolo infinito.
El manejador de datos relacional, hasta el momento está compuesto por cuatro secciones operativas: A) Editar-capturar registros de Aves, B) Editar- capturar ubicación, C) Colecciones, y D) Citas Bibliográficas. Se eligieron para las interfaces elementos de diseño sencillo, con botones que conducen a las diferentes secciones del banco de información. Se ponderó la facilidad y simplicidad en el diseño relacional de tal manera que los usuarios finales pudieran manipular la información mediante una consulta simple. Esto puede verse en la tabla 1, que centraliza la mayor parte de la información proveniente de otras tablas, incluyendo las variables propias de esta entidad. Por otro lado por la experiencia con otros manejadores, se fomentó la simplicidad, mediante el empleo de pantallas explícitas que requieren un mínimo de cambios de pantalla para completar la captura de un registro.
A B
Figura 3. Puede observarse en 3A el uso de listas desplegables, una estrategia para evitar errores por captura.; En 3B las variables generales de ubicación (Izquierda), así como los elementos de georreferencia (derecha), se han incluido algunas variables de control para la captura (Inferior derecha).
Con respecto a la interfaz de usuario, se ha definido como simple y amigable de tal modo que se evita en la medida de lo posible, errores por parte del capturista mediante la minimización del
uso de teclado y por otro lado fomentando el uso el puntero en listas desplegables, lo que puede observarse en 3A. Además, para registrar la distribución de los ejemplares de aves, se diseñó la sección de Ubicación: incluyendo listas desplegables con información de Estados y Municipios a nivel nacional para evitar teclearlos, así como el tipo de vegetación, adicionada posteriormente y con información sobre el particular mediante la clasificación de la CONABIO. Se incluyeron algunos controles para evitar que aquellos sitios ya capturados volvieran a repetirse, se observa en 3B.
Captura de Información. Debido a que la integridad de la información es de vital importancia para poder llevar a cabo análisis y extraer conclusiones confiables, el proceso de captura requirió varios pasos que a continuación listamos:
Capacitación a los usuarios investigadores y capturistas: Se trabajó la capacitación en cascada, en primera instancia a los usuarios investigadores y ellos a su vez a los usuarios capturistas.
Preparación de los datos a capturar: Esta actividad es requerida y siempre se verificó antes de la captura misma.
Dar de alta la fuente de datos en la sección de Citas Bibliográficas o Colecciones, así como la ubicación.
Extracción cuando no se presentan ordenados o de difícil lectura: Esto requiere emplear técnicas simples pero útiles como sacar fotocopias y dejar expuestos los datos a capturar (borrando o marcando los datos no requeridos).
Organización de los datos en bloques de listas numeradas e impresas, sobre la que se hacen anotaciones y comentarios diversos, se archivan para cualquier consulta posterior.
Bitácora de entrada y salida del capturista con datos sobre fecha, hora, elementos capturados y comentarios, principalmente.
Muestreo periódico de control de calidad en la captura.
Generación de campos obligatorios en campos importantes, incluyendo la identificación del capturista.
Resultados de la captura. A partir de la captura de datos sobre aves, a la fecha disponemos de 4640 registros y están por agregarse 2283 registros de una colección proveniente de la UNAM y que requiere ser homologada, para adicionarse adecuadamente.
Control de Calidad
Sobre punto en particular hacemos mención por ser una actividad relevante que ayuda a mantener un estándar alto de la integridad de la información y permite corregir posibles errores. En la interfaz de captura, se incluye un campo obligatorio que indica nombre del capturista en turno, lo que nos permite conocer en la práctica, el desempeño de cada colaborador, y de ese modo discriminar adecuadamente este tipo de posible causal de falla en la captura.
0 5 10 15 20 25 30 35 40 45 1 2 3 4 Muestreo Número P ar te p o r M il la r 0 2 4 6 8 10 12 1 2 3 4 Muestreo Número P a rt es p o r C ie n A B
Fig. 5. Puede observarse en A, las proporciones de errores en variables esenciales por millar, fue evidente la elevada incidencia en el muestreo 1, posteriormente a ello se corrigió toda la información y subsecuentes muestreos, indican presencia de errores en proporciones aceptables. En B se observa una tendencia a la mejora y estabilización en las proporciones de errores en variables secundarias por millar, aunque fue evidente la elevada incidencia en el muestreo 1, se ha logrado minimizar en lo límites de error aceptados para este tipo de variable.
Por otro lado fue necesario identificar aquellas variables que por su importancia, tienen más peso y relevancia al proyecto; les denominamos variables esenciales y las demás, variables secundarias. Con este criterio, procedimos a definir el error máximo que estábamos dispuestos a permitir en los registros correspondientes a cada uno de los tipos de variable mencionados anteriormente. Esto es, en variables esenciales no más del 0.5% de la muestra, es decir 1 entre 200; por otro lado 1% para las variables secundarias. Más que un tamaño de muestra, se
definió el trabajar con un muestreo sistemático, en la que se revisaría un registro cada 10 de ellos, lo que permitiría un muestreo continuo como un todo, más que muestreos individuales.
Como se observa en la figura 5, con respecto a variables esenciales se ha podido mantener un apropiado nivel de calidad en la captura, proceso que no puede detenerse, ya que ha sido evidente que constituye una guía importante para la continuidad e integridad de los datos.
Consideraciones Finales
A partir de estos resultados ha sido posible delinear estas primeras experiencias en el Banco de Información Automatizado: Aves del Sureste Mexicano del cual estamos totalmente concientes que faltan muchos elementos para conformar tanto en software como en información una aplicación completa, sin embargo creo que ha sido interesante mostrar estos primeros trabajos desde sus inicios hasta el momento actual en que se está trabajando activamente.
Referencias Bibliográficas
Kroenke, D. M.: Procesamiento de Bases de Datos. Fundamentos, Diseño e
Instrumentación, 5ta ed., pp. 55--61 Prentice-Hall Hispanoamericana, México (1996). Rodriguez, P. y Vázquez, D. E.: Escalas y diversidad de especies. Facultad de Ciencias
UNAM 109-114 In: Morrone J. J. y Llorente B. J. Editores. Una perspectiva Latinoamericana de la Biogeografía 307 p. (2003).
Soberón, J. y Peterson, T., Biodiversity informatics: managing and applying primary biodiversity data.Philos. Trans. R. Soc. Lond. Ser. B 359, pp. 689--698 (2004).