Fase VI: Acceso
Capítulo 5 Evaluación y discusión
5.2 Evaluación del BIRI
Considerando las métricas y los resultados presentados en los apartados anteriores con respecto al BIRI y la identificación de los recursos en las publicaciones, se obtienen los valores presentados en la tabla 5.1.
Artículos analizados: 400
Artículos CON información relevante: 392
Artículos SIN información relevante: 8
Recursos identificados: 376 (TP)
Falsos positivos: 0 (FP)
Falsos negativos: 16 (FN)
Precisión (P): 1
Recall (R): 0,95918367
Tabla 5.1 – Evaluación de los resultados del BIRI. Datos extraídos de [DEL08]
Evaluación del BIRI
En este experimento se obtuvo una precisión de 1 debido a que el algoritmo de identificación de nombres de recursos descartó correctamente los 8 casos de control introducidos en el corpus de entrada. En cuanto a la exhaustividad o recall, el algoritmo obtuvo un valor de casi el 96%. Estos resultados se deben, en gran medida, a que el corpus de entrada contenía artículos previamente seleccionados y que el mencionado algoritmo de identificación se ajustó a dichos artículos, produciéndose quizás un problema de sobreajuste. En este caso, esta situación no supone un inconveniente puesto que el objetivo del experimento era demostrar que se podían identificar recursos a partir del texto de artículos científicos.
Adicionalmente, para evaluar los resultados obtenidos usando el modelo propuesto, se comparó el contenido de la base de datos de BIRI con otros índices públicos existentes. Esta comparación se realizó atendiendo a dos dimensiones: Una, rasgos y características de los índices. Dos, número de recursos contenidos en cada índice con respecto al BIRI. Para realizar la primera comparativa, se consideraron cinco características:
a) Generación del índice, donde se analiza si el índice fue creado de manera manual, semi-automática o automática.
b) Indexación de recursos externos, es decir, si el índice contiene recursos desarrollados únicamente por el grupo u organización que lo ha desarrollado, o también indexa recursos desarrollados por terceras partes, lo cuales se denominan recursos externos.
c) Capacidades de búsqueda, indicando si el interfaz proporcionado por el índice proporciona utilidades avanzadas de consulta.
d) Anotación de recursos, mostrando si le índice contiene anotaciones o meta-información asociada a los recursos indexados.
e) Clasificación de recursos, que indica si los recursos están clasificados de alguna forma dentro de la aplicación.
Evaluación y discusión
La tabla 5.2, presenta los resultados de la comparación de índices en función de sus rasgos y características. Esta información ha sido extraída de la literatura científica y las páginas web oficiales donde los índices están accesibles públicamente. Como puede observarse, los índices analizados poseen algún tipo de clasificación y anotación de los recursos. La mayoría de ellos indexan recursos externos y ponen a disposición del usuario facilidades de búsqueda avanzada. La principal diferencia reside en la generación del índice que, en la mayoría de los casos, se realiza de manera manual. Es esta característica la que diferencia principalmente al BIRI de los demás índices existentes. Existe otra característica no reflejada en la comparativa que es el proceso de actualización. Esta característica quedó fuera de la comparativa debido a la falta de información suministrada por los otros índices. Todo parece indicar que la actualización de los otros índices se realiza de manera manual, igual que su creación, pero este dato no
Nombre Generación automática Recursos externos Búsqueda avanzada Anotación de recursos Clasificación de recursos Bioinformatics Links Directory X X X X Pathguide X X X X Online Bioinformatics Resource Collection X X X X
ExPASy Life Science
Directory X X X Molecular Biology Database X X X Database of Databases X X X X Recursos en el EBI X X X iTools X X X X X myGrid X X X Feta Semi X X X X caBIG X X X BIRI X X X X X
Tabla 5.2 – Comparativa de índices bioinformáticos en función de sus características. Información extraída de [DEL09]
Evaluación del BIRI
ha podido ser verificado. En el caso del BIRI, dicho proceso puede realizarse de manera automática repitiendo los mismos pasos que para la generación del índice, utilizando como entrada los abstracts de los artículos que contengan descripciones de recursos.
Los resultados obtenidos al comparar el BIRI con el resto de índices respecto al número de recursos indexados se presentan en la tabla 5.3. Esta comparativa se realizó considerando el contenido de la base de datos curada del BIRI, que contenía 316 recursos. Dicha tabla muestra el total de recursos indexados por cada índice, las coincidencias de recursos entre el BIRI y el índice en cuestión, y el número de recursos nuevos existentes en el BIRI que no existen en el índice con que se compara en cada caso. Como puede observarse, en los 400 abstracts analizados para el BIRI, se identificaron automáticamente más de 230 recursos contenidos tanto en el Online Bioinformatics Resource Collection (OBRC) como en el Bioinformatics Links Directory (BLD), siendo éste último el que inspiró en parte el sistema de clasificación utilizado en el BIRI.
Tabla 5.3 – Comparativa de índices bioinformáticos en función del número de recursos. Información extraída de [DEL09]
Otro punto destacable es que se identificaron recursos que no existían en dichos índices, más de 80 en cada caso. El número de coincidencias detectado tanto en el OBRC y el BLD, destaca por encima de los otros índices comparados. Esto se debe principalmente a que ambos índices comparten una filosofía similar a la del BIRI, es decir, indexan recursos bioinformáticos de todo tipo. Las
Nombre del índice Recursos
totales Coincidencias
Nuevos en BIRI
Bioinformatics Links Directory 1350 235 81
Pathguide 293 10 306
Online Bioinformatics Resource Collection 2368 231 85
ExPASy Life Science Directory 1253 15 301
Molecular Biology Database 1171 28 288
Database of Databases 1056 33 283
Recursos en el EBI 111 22 294
Evaluación y discusión diferencias estriban, fundamentalmente, en que algunos índices suelen estar más centrados en un determinado tipo de recursos, como puede ser el caso de Database of Databases que únicamente recoge información de bases de datos bioinformáticas, o que el contenido de los mismos se nutre de un reducido número de fuentes, por ejemplo, de los recursos publicados en una determinada revista. A pesar de estas diferencias, aplicando el modelo propuesto en esta tesis doctoral, pudieron encontrarse coincidencias con todos ellos.