SIM - un sistema interactivo de identificación de muestras biológicas

Texto completo

(1)UNIVERSIDAD DE LOS ANDES. DEPARTAMENTO DE INGENIERÍA DE SISTEMAS. TESIS PARA OPTAR POR EL TÍTULO DE MAGÍSTER EN INGENIERÍA DE SISTEMAS. SIM: UN SISTEMA INTERACTIVO DE IDENTIFICACIÓN DE MUESTRAS BIOLÓGICAS. DANIEL FALLA. ASESOR: GERMÁN ENRIQUE BRAVO. 2011.

(2) Agradecimientos Quiero agradecer especialmente a mis papás y hermanos por estar siempre presentes y acompañarme durante todo momento, especialmente durante mis estudios de maestría. A mi asesor Germán Enrique Bravo le agradezco enormemente su paciencia, disponibilidad y valiosa colaboración durante todas las etapas de este trabajo. De igual forma, debo agradecer a Juan David Hernández por sus valiosos aportes y participación en este trabajo desde el primer día. A Silvia Takahashi quiero agradecerle su interés por este trabajo y haber aceptado ser jurado del mismo. A Martha Alexandra Rueda le agradezco inmensamente su constante ayuda desinteresada a la luz de todas mis inquietudes. De ninguna manera podría olvidar a Jeison Amaya y Jacqueline Rodríquez por su dedicación en su trabajo que permitió enriquecer esta experiencia, ni a Luis Javier Bautista por su gentileza y colaboración en cuestiones técnicas..

(3) Tabla de contenido 1.. Introducción ...........................................................................................................................1. 2.. Objetivos ................................................................................................................................4. 3.. Marco teórico .........................................................................................................................5. 4.. Herramientas de identificación .............................................................................................10. 5.. Solución propuesta: SIM .......................................................................................................23. 6.. Desarrollo de la solución .......................................................................................................47. 7.. Resultados ............................................................................................................................58. 8.. Mejoras ................................................................................................................................60. 9.. Conclusiones .........................................................................................................................61. 10.. Glosario ............................................................................................................................63. 11.. Bibliografía ........................................................................................................................65. Anexo A: Manual de bacteriología sistemática de Bergey..............................................................67 Anexo B: Casos de uso del sistema ................................................................................................69 Anexo C: Detalle de resultados .....................................................................................................84.

(4) Índice de tablas Tabla 1. Niveles de identificación para el sistema Vitek 2 (Pincus) .................................................14 Tabla 2. Matriz de comparación ....................................................................................................22 Tabla 3. Filtración de un grupo de candidatos a partir de una tabla de características tomando un resultado particular de una prueba ...............................................................................................34 Tabla 4. Escenario de identificación A1 (Boone, 2005)...................................................................38 Tabla 5. Escenario de identificación A2 (Boone, 2005)...................................................................38 Tabla 6. Resumen de grupos .........................................................................................................58 Tabla 7. Resumen de pruebas .......................................................................................................58 Tabla 8. Resumen de número de especies identificables por género .............................................59 Tabla 9. Definición estándar del Manual de bacteriología sistemática de Bergey (Bergey's Instructions for Authors, 2010) .....................................................................................................67 Tabla 10. Resumen de especies para el género Campylobacter .....................................................85 Tabla 11. Resumen de especies para el género Haemophilus ........................................................86 Tabla 12. Resumen de especies para el género Helicobacter .........................................................87 Tabla 13. Resumen de especies para el género Neisseria ..............................................................88 Tabla 14. Resumen de especies para el género Citrobacter ...........................................................89 Tabla 15. Resumen de especies para el género Escherichia ...........................................................89 Tabla 16. Resumen de especies para el género Morganella...........................................................90 Tabla 17. Resumen de especies para el género Salmonella ...........................................................90 Tabla 18. Resumen de especies para el género Shigella.................................................................91 Tabla 19. Detalle de la clasificación de SIMuBac ............................................................................92.

(5) Índice de figuras Figura 1. Ejemplo de una clave tradicional de identificación de plantas herbáceas (Dallwitz, Paine, & Zurcher, Key, 1993) .....................................................................................................................7 Figura 2. Ejemplo de una definición de caracteres en formato DELTA utilizados para identificar insectos (Dallwitz, Paine, & Zurcher, DELTA format, Confor, Dist, Intimate, 1993) ...........................7 Figura 3. Descripción de un taxón ejemplo en formato DELTA.........................................................8 Figura 4. Otra descripción de un taxón ejemplo en formato DELTA .................................................8 Figura 5. Agrupación de reacciones en una tira API 20E (Biotech, 2010) ........................................11 Figura 6. Panel de pruebas utilizado por Biolog Gen III (Biolog, 2010)............................................12 Figura 7. Vitek 2 Compact (Pincus) ................................................................................................13 Figura 8. Función comparativa de Key (Dallwitz, Paine, & Zurcher, Key, 1993)...............................15 Figura 9. Función comparativa simplificada...................................................................................16 Figura 10. Pantallazo de Intkey en modo de identificación ............................................................17 Figura 11. Diagrama conceptual de las pruebas............................................................................25 Figura 12. Diagrama conceptual de la clasificación ........................................................................26 Figura 13. Relación entre diagramas, pruebas y clasificación .........................................................27 Figura 14. Ejemplo de una identificación jerárquica ......................................................................28 Figura 15. Transición simple entre diagramas considerando sus candidatos ..................................29 Figura 16. Transición simple entre diagramas considerando su historia.........................................30 Figura 17. Transición entre diagramas considerando sus candidatos e historia..............................31 Figura 18. Algoritmo propuesto para ordenar un conjunto de pruebas de mayor a menor poder discriminativo ...............................................................................................................................35 Figura 19. Otro algoritmo para ordenar un conjunto de pruebas de mayor a menor poder discriminativo ...............................................................................................................................39 Figura 20. Algoritmo para generar un diagrama de identificación dado unos grupos .....................41 Figura 21. Algoritmo para generar las etapas de un diagrama de identificación ............................41 Figura 22. Generación de un diagrama a partir de un conjunto de grupos .....................................42 Figura 23. Identificación con tolerancia error igual a cero .............................................................44 Figura 24. Cantidad de errores para cada candidato en la etapa E1................................................44 Figura 25. Nueva identificación al cambiar la tolerancia de cero a dos ..........................................45 Figura 26. Casos de uso para el digitador (parte 1) ........................................................................48 Figura 27. Casos de uso para el digitador (parte 2) ........................................................................49 Figura 28. Casos de uso para el revisor..........................................................................................50 Figura 29. Casos de uso para el investigador .................................................................................51 Figura 30. Diagrama de clases de SIM ...........................................................................................52 Figura 31. Diagrama de clases de SIM para modelar las tablas de características determinativas ..53 Figura 32. Diagrama de componentes para la arquitectura de SIM ................................................54 Figura 33. Diagrama entidad-relación de la base de datos.............................................................55.

(6) 1. Introducción El actual sistema de clasificación de especies de seres vivos puede encontrar su origen en aquel propuesto por el naturalista Carl Von Linneo en el siglo XVIII. Este sistema se conoce como una clasificación, que es una jerarquía de taxones. Así, cada taxón puede tener varios descendientes y un único padre. Este tipo de clasificación ha tenido amplia aceptación y uso por los taxónomos hasta hoy. Una clasificación puede tener un número elevado de taxones, cada uno de éstos con características diferentes por lo que se han propuesto diferentes métodos para identificar una muestra. Una muestra no es más que un ejemplar o un conjunto de ejemplares de uno o varios taxones de una determinada clasificación. En una identificación, el propósito del investigador es saber a cuáles taxones pertenecen los individuos de la muestra. En la medicina, una identificación exitosa realizada a tiempo a partir de una muestra tomada de un paciente puede generar diagnóstico y tratamiento del paciente afectado por microorganismos patógenos (Dallwitz A. , 1992) (Merck, 2010). Por razones de simplicidad, se puede suponer que en una muestra sólo hay individuos de un taxón; de modo que el problema se reduce a identificar un individuo de la muestra en la jerarquía taxonómica. Para tal fin, se pueden utilizar diversos métodos que pueden variar dependiendo del campo de investigación estudiado. Específicamente, en la clasificación de microorganismos como bacterias y hongos, se pueden utilizar pruebas bioquímicas, que son ampliamente utilizadas por los microbiólogos. Naturalmente, hay otros métodos que han surgido en las últimas décadas que hacen uso de tecnología más avanzada para mejorar la precisión o reducir el tiempo de identificación. En este trabajo se estudia el proceso de identificación de muestras a partir del uso de pruebas bioquímicas apoyadas por un sistema informático que presente la información necesaria al investigador de una forma organizada y compacta para guiarlo a una identificación reduciendo al mínimo los errores propios de este proceso. Para lograr esto, se provee al investigador la información necesaria para tomar decisiones que reduzcan el tiempo y costo de una identificación dentro de los parámetros esperados por el uso de métodos convencionales como las pruebas bioquímicas. Idealmente, se quiere comparar los resultados arrojados por el uso extensivo del sistema con otros métodos de identificación más precisos, pero más costosos, para evaluar su viabilidad para que sea utilizado por cualquier laboratorio de microbiología que no posea los recursos necesarios, o bien como una alternativa si ya cuentan con otros métodos de identificación. Adicionalmente, el sistema podría ser utilizado para realizar cualquier identificación de muestras en una clasificación; el método de identificación tendría que apoyarse sobre los mismos métodos generales de identificación. Es decir, serviría para aquellos dominios que también utilicen pruebas de. 1.

(7) identificación y cuyas muestras sean identificadas por estas pruebas en una clasificación linneana bien definida.. Motivación En principio, la motivación de este trabajo surge de un proyecto de identificación de bacterias y hongos en piezas plastinadas en la Universidad de los Andes. Este tipo de piezas se logra mediante un proceso llamado plastinación inventado en 1978 por Gunther von Hagens, que consiste en remplazar las grasas y líquidos de la pieza –que son partes de seres vivos– por plásticos para conservarlas durante mayor tiempo (Weiglein, 2005). Durante dicho proyecto, los investigadores de la universidad se preguntaron si sobre estas piezas pueden crecer microorganismos que puedan deteriorar la salud de las personas que las manipulan o si dichos microorganismos pueden deteriorar las piezas mismas (Rueda, 2009). La idea es entonces, tomar muestras de material en la superficie de los plastinados e identificar los microorganismos ahí presentes. Según esta identificación se puede determinar la seguridad de manipulación de los plastinados. Una vez se tuvo una idea global del problema a solucionar, se plantean varios métodos de identificación. Dentro de los métodos encontrados se encuentran principalmente los siguientes: identificación mediante pruebas bioquímicas, mediante pruebas API o mediante secuenciación de cadenas genéticas. De estos métodos, se escoge inicialmente como solución al problema las pruebas bioquímicas por razones prácticas y económicas. A pesar de que existen otros métodos más modernos y eventualmente más precisos, son también más costosos. Además de esto, las pruebas bioquímicas no han perdido vigencia del todo porque a veces son útiles para averiguar características fisiológicas de un grupo de especies que no podrían ser identificadas mediante métodos moleculares (Biolog, 2010), o bien este tipo de pruebas son utilizadas con fines académicos (Bednarski, 2006). A partir de esta información, surge la idea de crear un sistema informático que permita analizar muestras de dichas piezas y guiar al investigador para identificar microorganismos mediante una secuencia de pruebas bioquímicas, no necesariamente preestablecida, proveyendo caminos alternativos en una identificación. Un sistema de identificación a partir de pruebas bioquímicas así construido puede también ayudar a la formación de estudiantes de microbiología y disciplinas afines de forma interactiva. Debido a la existencia de millares de especies de bacterias, es necesario que el sistema a desarrollar tenga la capacidad de soportar grandes conjuntos de bacterias. Dado que el proceso de identificación de distintas muestras mediante una secuencia de pruebas bioquímicas es similar, y la solución no depende del número de bacterias almacenadas en la base de datos, se decidió empezar con un conjunto relativamente reducido de bacterias: las de importancia clínica y algunas ambientales, presentes en el anfiteatro de la Universidad de los Andes. Sin embargo, el sistema. 2.

(8) está construido para aceptar otros grupos de bacterias y pruebas que puede ser ampliado cuando se requiera.. 3.

(9) 2. Objetivos Generales Desarrollar un sistema que guíe a investigadores en un laboratorio en la identificación de una muestra bacteriana por medio de una secuencia de pruebas bioquímicas. Mostrar que combinando formas de identificar microorganismos a partir de pruebas bioquímicas se obtiene una herramienta con una buena relación costo beneficio que pueda ser utilizada en varios laboratorios de medicina y microbiología. Desarrollar un sistema que sea fácilmente generalizable para identificar muestras de varios dominios de las ciencias naturales.. Específicos Desarrollar un sistema que sea utilizado para identificar muestras bacterianas de poblaciones de microorganismos presentes en piezas plastinadas de la universidad. Capturar digitalmente la información determinativa de las especies de bacterias de importancia clínica más comunes encontradas por investigadores de la universidad.. Beneficios Simplificar la selección de pruebas en una identificación interactiva al tener la información del proceso en un mismo sitio. Desarrollar una herramienta que sea útil para enseñar a estudiantes de microbiología fundamentos acerca de las pruebas de identificación, y cómo usarlas para identificar muestras bacterianas.. 4.

(10) 3. Marco teórico Existen varias formas de identificar una muestra. Una forma de identificación que ha sido usada durante siglos son las claves de identificación. A continuación se presentan las claves de identificación tradicionales, y las claves interactivas que es un método apoyado por la tecnología informática. Adicionalmente, existen herramientas tecnológicas que se apoyan en estándares como el formato DELTA: este formato de descripción de taxones y caracteres se detalla a continuación. Finalmente, se hace una referencia a la secuenciación de cadenas genéticas que es un método de biotecnología avanzada utilizado para identificar muestras de organismos.. Clasificación Existen dos principales técnicas de clasificación de especies en general: la linneana y el cladismo (Vallejo, 2002). A pesar de que el cladismo tiene ciertas características interesantes como agrupar los taxones de forma filogenética, su uso no se ha generalizado porque se necesitarían bastante más taxones que en la clasificación linneana para agruparlos en una estructura jerárquica que garantice que cada taxón sea monofilético, esto es, que su clade asociado contenga a todos sus descendientes conocidos en su árbol filogenético (Vallejo, 2002). Por esta razón, la clasificación linneana sigue siendo la más utilizada y aceptada y es la que se explica a continuación. Cuando se identifica una muestra, se está asignando a la muestra un taxón que está contenido en una clasificación, que es una estructura jerárquica que sirve para agrupar taxones en varios niveles taxonómicos. En la clasificación linneana de los seres vivos, los niveles principales son: reino, filo, clase, orden, familia, género, especie, con eventuales subniveles (subfamilia, por ejemplo) (Schuh & Brower, 2000). Cuando se identifica efectivamente una muestra en un taxón se pueden deducir características de la muestra por el hecho de pertenecer a dicho taxón. Además, si se está identificando bacterias de importancia clínica, es posible conocer enfermedades causadas por dicho patógeno para tomar acciones preventivas (Dallwitz A. , 1992). Cuando se identifica una bacteria, también es posible identificar si la especie a la que pertenece puede deteriorar materiales (Rueda, 2009); tomando en cuenta esta información es posible impedir o disminuir el deterioro de distintos materiales que pueden ser colonizados por las bacterias. Lo anterior es importante a la luz del proyecto que motivó este trabajo.. Claves de identificación tradicionales A partir del conocimiento experimental, se pueden construir secuencias de preguntas que le permiten a un investigador recorrer una clasificación para llegar al grupo que representa a una muestra (Dallwitz A. , 1992). Dependiendo del resultado de la última pregunta, el investigador puede tomar varios caminos, y el orden en que se responden las preguntas ha sido establecido previamente por el autor. A este modelo de preguntas y taxones se le denomina clave de 5.

(11) identificación. Este modelo de identificación produce una estructura jerárquica; en las hojas de las claves aparecen taxones individuales, y los demás nodos de la estructura corresponden a preguntas acerca de características de la muestra (Pankhurst, 1991). Cuando las preguntas sólo aceptan como resultado uno afirmativo o negativo, se llaman claves dicotómicas. La principal desventaja de usar una sola clave es que se deben realizar las preguntas en el orden propuesto. Si hay alguna pregunta que no sea posible responder, se debe utilizar otra clave. Otra desventaja de estas claves es que es muy poco práctico que, en una sola clave, se cubra toda la clasificación. Además, cuando se comete un error al responder una pregunta no es posible llegar a una identificación correcta, a no ser que la clave se encuentre reticulada (Osborne, 1962).. 6.

(12) Figura 1. Ejemplo de una clave tradicional de identificación de plantas herbáceas (Dallwitz, Paine, & Zurcher, Key, 1993). Claves interactivas Una clave interactiva (o clave de múltiple acceso) es un programa de computador que permite identificar una muestra al elegir resultados para distintas pruebas en el orden deseado por el usuario. Idealmente, los taxones se filtran hasta llegar a uno solo. El programa puede realizar este proceso apoyado de una matriz de caracteres y taxones; es decir, el programa filtra los taxones comparando los valores de esta matriz con los valores ingresados por el usuario. También, es posible realizar este proceso mediante un sistema experto basado en reglas pero algunos autores consideran que esto es más dispendioso y menos práctico (Dallwitz A. , 1992). A diferencia de las claves de identificación tradicionales, es posible llegar a una identificación exitosa aún si se cometen errores al ingresar el valor de cierta característica haciendo que la clave interactiva soporte tolerancia a errores: Un taxón sólo se descarta cuando sobrepasa un límite de caracteres no coincidentes con los ingresados por el usuario.. Formato DELTA El formato DELTA es el formato por defecto que usan todos los programas DELTA (como Intkey) para describir caracteres y taxones en un archivo plano de texto, con ciertas convenciones para ser procesado por los programas que utilicen el formato. Los caracteres describen a los taxones, y son de varios tipos: múltiple estado ordenado, múltiple estado no ordenado, entero, real o texto. Un ejemplo de definición de caracteres se presenta en la siguiente figura. #1. striated area on maxillary palp <presence>/ 1. present/ 2. absent/ #2. pronotum <colour>/ 1. red/ 2. black/ 3. yellow/ #3. eyes <size>/ 1. of normal size <i.e. less than 0.5mm in diameter>/ 2. very large <i.e. more than 0.5mm in diameter>/ #4. frons <setae>/ 1. with setae on anterior middle and above eyes/ 2. with setae above eyes only/ 3. without setae/ #5. number of lamellae in antennal club/ #6. length/ mm/ #7. <comments>/ Figura 2. Ejemplo de una definición de caracteres en formato DELTA utilizados para identificar insectos (Dallwitz, Paine, & Zurcher, DELTA format, Confor, Dist, Intimate, 1993). La anterior figura presenta ejemplos para cada tipo de carácter: el número 2 es de tipo estado múltiple no ordenado porque sus valores no tienen ningún tipo de orden natural. El número 4 es 7.

(13) un ejemplo de un carácter ordenado porque sus estados están en cierto orden natural. Para este ejemplo, se parte de la presencia de pelos en los ojos intermedios y superiores, después de lo cual sigue la presencia en sólo los superiores, y se termina en la ausencia de dichos pelos. El número 5 claramente representa un carácter entero, el 6 representa uno real, y el 7 representa uno de texto. Los caracteres 1 y 3 pueden ser ordenados o no ordenados porque solo tienen dos estados (Dallwitz, Paine, & Zurcher, DELTA format, Confor, Dist, Intimate, 1993). Por otro lado, para describir taxones se utilizan descriptores de ítems. Por lo general, se utiliza un descriptor de ítem por taxón, aunque es posible utilizar varios si, por ejemplo, el taxón posee varias subespecies. Cada ítem, debe empezar por el símbolo “#” seguido del nombre del ítem. De forma similar a los caracteres, se puede poner entre los símbolos <> información adicional del ítem a manera de comentario, justo antes del fin de la definición del ítem que es denotada por el símbolo “/” (Dallwitz, Paine, & Zurcher, DELTA format, Confor, Dist, Intimate, 1993). Después de este símbolo es posible poner atributos, que son estados para caracteres existentes; por ejemplo considere la siguiente definición con tres atributos: #Taxón1<Creado a manera de ejemplo>/1,2 3,2 6,2 Figura 3. Descripción de un taxón ejemplo en formato DELTA. La figura 3 define el taxón Taxón1 con su respectivo comentario. Basándose en los caracteres dados por la Figura 2, el Taxón1 tiene ausente el área estriada en el maxilar (1,2), tiene ojos muy grandes (3,2), y su longitud es de 2 mm (6,2). Para que la definición sea más legible, también se pueden asociar comentarios a cada valor y a cada carácter. Para el ejemplo anterior, se podría tener de forma equivalente: #Taxón1<Creado a manera de ejemplo>/1<área estriada>,2<ausente> 3<ojos>,2<grandes> 6<longitud>,2<mm> Figura 4. Otra descripción de un taxón ejemplo en formato DELTA. Secuenciación de cadenas genéticas Este método de identificación molecular tiene una gran exactitud para identificar una muestra, pero es necesario contar con equipos muy costosos como los secuenciadores, por ejemplo. Los secuenciadores le proveen al investigador, después de un proceso cuidadoso, una cadena de RNA que puede ser comparada directamente con genomas para obtener una identificación. Una vez se tiene esta cadena de RNA, la identificación toma el tiempo de comparar la cadena contra los genomas. El proceso de secuenciación es propenso a errores y para recuperarse de estos errores es necesario repetir todo el procedimiento. Para secuenciar una muestra bacteriana, es necesario utilizar primers, que son segmentos de ácidos nucleicos que sirven como punto de partida para sintetizar cadenas genéticas. Generalmente, se utilizan primers para amplificar el gen 16S RNA (presente en las células. 8.

(14) procariotas, como las bacterias) que es útil para diferenciar especies de forma filogenética por lo que se utiliza para identificar muestras bacterianas (Weisburg, Barns, Pelletier, & Lane, 1991). Este método tiene una gran precisión comparado con los métodos de identificación fenotípica presentados en la siguiente sección pero todavía no ha tenido amplia difusión debido a sus dificultades técnicas y sus elevados costos (Clarridge, 2004).. 9.

(15) 4. Herramientas de identificación Dentro de herramientas investigadas para identificar muestras bacterianas, se presenta la prueba API, el sistema Gen III y el sistema Vitek 2 que realizan identificación de muestras bacterianas mediante información fenotípica obtenida a partir de pruebas bioquímicas. Luego se presenta el programa DELTA de identificación interactiva Intkey que se apoya de caracteres para identificar muestras de organismos. Finalmente se realiza una descripción de Ikia, que es un sistema de identificación interactivo apoyado de claves tradicionales y redes neuronales. La presentación de cada herramienta consiste en una descripción de su estructura y funcionamiento, y luego sus principales ventajas y desventajas con respecto al problema de identificación de muestras bacterianas.. API La prueba API (Analytical Profile Index), es un sistema rápido de identificación de bacterias inventado por Pierre Janin de Analytab Products, Inc (Plainview, Nueva York) en 1973. API es en realidad un conjunto de pruebas simultáneas en un panel con todos los reactivos listos para las pruebas (Pierre, 1974). En teoría, se pueden realizar cualquier número de pruebas aunque es muy común encontrar en el mercado tiras API (strips) con 20 pruebas (API 20E). Una vez se tienen los resultados de las pruebas, se obtiene un código mediante un codificador. Este código es el perfil de la muestra y se compara con todos los perfiles de las bacterias conocidas. El perfil que más se parezca al obtenido por las pruebas es la especie con mayor probabilidad de representar la muestra. El sistema API maneja probabilidades porque el código no siempre coincide exactamente con algún perfil de la base de datos; de ahí que se tenga un método propietario para encontrar la bacteria que más se parezca con su respectiva probabilidad (Biotech, 2010). Para encontrar el código mencionado arriba, es necesario interpretar los colores después de que las reacciones han tomado lugar. En la prueba API 20E, cada tres pruebas consecutivas en la tira se obtiene un código que resulta de sumar ciertos números para cada uno de los tres compartimientos. Al final se obtiene un código de 7 dígitos (el último dígito se obtiene de sumar los dos últimos compartimientos más un código especial como resultado de la prueba oxidasa). Este código se usa, finalmente, para identificar la muestra en la base de datos de los perfiles.. 10.

(16) Figura 5. Agrupación de reacciones en una tira API 20E (Biotech, 2010). Las principales ventajas de este método son: se miniaturiza y compacta el proceso en pruebas bioquímicas realizadas en pequeños tubos con reactivos. De esta forma, es muy práctico hacerse una idea de las características de cierta muestra porque los resultados de todas las pruebas están agrupados y pueden ser vistos al mismo tiempo por el investigador. Así mismo, si se tiene un código correcto (después de realizar las pruebas e interpretar sus resultados) el tiempo de identificación es el tiempo que dure una búsqueda en la base de datos de perfiles. En cuanto a la precisión de la prueba API se encuentra que por lo general es mayor a realizar identificaciones utilizando individualmente las pruebas bioquímicas. No obstante, es posible malinterpretar fácilmente los resultados de las pruebas, por lo que es deseable tener experiencia para codificar los resultados correctamente y evitar así la propagación del error. Adicionalmente, es necesario que todas las pruebas reaccionen correctamente para poder obtener el código; si alguna falla, no es posible obtenerlo, y sin el código no es posible realizar una identificación. Más aún, esta prueba está diseñada específicamente para identificar microorganismos; de modo que no se puede utilizar para identificar muestras de otros organismos. Además de esto, a veces es necesario realizar pruebas de confirmación, generalmente cuando el perfil de la bacteria no es suficientemente confiable (Erdinger, Migneault, & Nolte, 1985). Finalmente, API sigue siendo más costoso que realizar las pruebas convencionales, por separado en el laboratorio, si éste cuenta con los materiales para realizar un gran volumen pruebas convencionales.. Biolog Gen III Esta herramienta de identificación utiliza un panel de pruebas para identificar bacterias Gram negativas y Gram positivas. De manera similar a la prueba API, se tiene un panel con pruebas en las cuales se inocula la muestra bacteriana para leer los resultados después de que hayan tomado lugar las reacciones. El panel de Biolog Gen III (MicroPlate) consta de 96 pozos que corresponden a 94 pruebas, de las cuales 71 corresponden a pruebas de utilización de carbón, y 23 a pruebas de sensibilidad química (Biolog, 2010). Estas pruebas están diseñadas para averiguar características como pH, producción de ácido, etc. Una vez se tiene inoculado el plato con el fluido respectivo, y se ha esperado el tiempo necesario para que reaccionen todos los pozos se tiene una “huella digital” de la bacteria que se utiliza para identificar la muestra. La identificación se puede realizar de forma manual, de forma semiautomática utilizando el sistema Biolog MicroStation, o de forma automática utilizando el sistema Biolog OmniLog. 11.

(17) Figura 6. Panel de pruebas utilizado por Biolog Gen III (Biolog, 2010). El sistema manual de identificación tiene un costo de 14 000 USD, el sistema MicroStation se consigue a partir de 44 100 USD, y el sistema OmniLog se consigue a partir de 73 100 USD (Biolog, 2010). Adicionalmente, las bases de datos que se quieran consultar hay que comprarlas por separado, además del material necesario para inocular el panel de pruebas. Una ventaja importante de esta herramienta es que no es necesario contar con distintos paneles de pruebas para identificar distintas bacterias Gram positivas y Gram negativas, ni es necesario realizar pruebas preliminares (Biolog, 2010). De forma similar a la prueba API, también se miniaturiza y compacta el proceso, y es muy fácil darse una idea de las características principales de la muestra por el color de las reacciones en el panel de pruebas MicroPlate. Como es de esperar, la precisión de esta herramienta es generalmente mayor que utilizar pruebas bioquímicas convencionales. A pesar de esto, el costo de Gen III se considera demasiado alto para ser ampliamente utilizado en laboratorios de microbiología y medicina. Además, no es posible generalizar la solución a otros organismos en distintas clasificaciones.. Vitek Vitek es un sistema automático de identificación de microorganismos patógenos a partir de características fenotípicas. El sistema utiliza tarjetas de identificación que constan de 64 pozos, 12.

(18) donde cada pozo tiene distintos sustratos reactivos para distintas pruebas basadas en crecimiento de microorganismos. Actualmente, existen tarjetas para identificar bacterias Gram positivas (tarjetas GP), bacterias Gram negativas (tarjetas GN), levaduras (tarjetas YST) y bacilos formadores de esporas (BCL). Las tarjetas se acomodan junto con los tubos de ensayo que contienen a las muestras del microorganismo en un casete que se alimenta al sistema. Una vez alimentado, las tarjetas de identificación son inoculadas de forma automática (BioMérieux, 2007). El sistema viene en tres formatos: Vitek 2 Compact, Vitek 2 y Vitek 2 XL. La versión compacta está orientada hacia laboratorios de microbiología industriales, mientras que las otras versiones están orientadas hacia laboratorios médicos de alto volumen. Naturalmente, la versión compacta es más barata (27 000 - 71 000 USD) que la versión Vitek 2 (94 000 USD) y la versión Vitek 2 XL (110 090 USD) (GSA Advantage, 2010).. Figura 7. Vitek 2 Compact (Pincus). Para cada prueba, a partir de un umbral de valores, se presenta el resultado: éste puede ser “+”,”“, “(-)” o ”(+)”. Los valores en paréntesis significan que no pasaron el umbral pero quedaron lo suficientemente cerca para ser presentados por el sistema al usuario. La lectura de resultados para cada pozo se realiza de manera óptica y, de acuerdo a una comparación en la base de datos de microorganismos, se presentan uno o varios taxones que corresponden a la muestra. De este análisis se encarga el Vitek 2 AES (Advanced Expert System). Así como el sistema API calcula un valor cuantitativo para cada conjunto de reacciones, Vitek 2 le asocia a cada conjunto de resultados de pruebas (también llamado bio patrón) una probabilidad, luego de ser calculada al consultar la base de datos de microorganismos que consta de alrededor de 2 000 fenotipos y 20 000 distribuciones MIC (Barry, 2003). Dependiendo de dicha probabilidad, se presentan uno o varios taxones. Cuando varios taxones tienen el mismo bio patrón, dichos taxones se presentan en conjunto como candidatos. Si el número es muy alto, es posible que el taxón que se está identificando no se encuentre en ninguna base de datos, o bien se cometió 13.

(19) algún error al realizar las pruebas preliminares por lo que se recomienda al usuario revisar el proceso (Pincus). Como Vitek 2 está en capacidad de detectar resistencia a antibióticos para diversos microorganismos, el sistema puede proponer antibióticos para tratar los microorganismos patógenos que sean identificados. A continuación se presenta la tabla de los niveles de identificación del sistema: ID Mensaje Nivel de confianza Excelente Muy bueno Bueno Aceptable Baja discriminación. Alternativas % Probabilidad. Comentarios. 1 1 1 1 2-3. N/A N/A N/A N/A 2 a 3 taxones tienen el mismo bio patrón. Separar por pruebas suplementarias.. Organismo desconocido. >3o0. 96 - 99 93 - 95 89 - 92 85 - 88 Suma de alternativas=100 Al decidirse por una opción el porcentaje de probabilidad refleja el número asociado con la opción elegida. N/A. > 3 taxones tienen el mismo bio-patrón o bio-patron atípico. No corresponde a ningún taxón de la base de datos. Revisar tinción de Gram y pureza.. Tabla 1. Niveles de identificación para el sistema Vitek 2 (Pincus). Dentro de las principales ventajas de este sistema se identifica su facilidad de uso, pues la inoculación de las muestras en los casetes se realiza de forma automática. Adicionalmente, el AES simplifica la identificación al comparar el bio patrón obtenido con la base de datos de microorganismos. Además de esto, la precisión de este sistema es mayor que realizar una identificación con base en pruebas bioquímicas, y la orientación clínica del sistema facilita su uso para detectar microorganismos patógenos. A pesar de esto, es necesario utilizar diferentes tarjetas dependiendo de la naturaleza de los microorganismos (Gram positivos, Gram negativos, levaduras, etc.) de la muestra. Más aún, no es posible identificar otro tipo de organismos, de forma que esta solución no es generalizable. Finalmente, el elevado costo de la solución restringe su uso para varios laboratorios.. 14.

(20) Sistema DELTA A partir del formato DELTA, existe una variedad de programas desarrollados sobre este formato. El sistema DELTA como tal es un conjunto de programas que se complementan entre sí. El sistema fue desarrollado por la división de entomología de CSIRO (Australia). La funcionalidad de cada programa puede ser distinta, pero la ventaja de utilizar el formato es que un archivo de descripción en formato DELTA puede ser utilizado, en principio, por cualquier programa DELTA. Por ejemplo, dentro de los sistemas DELTA, están los programas Confor y Key (Dallwitz 1974; Dallwitz y Paine 1986). Confor puede crear descripciones en lenguaje natural a partir de una descripción en formato DELTA, y Key a su vez puede tomar esta descripción y crear otro archivo para imprimir claves de identificación tradicionales.. Key Key es un programa DELTA desarrollado para crear automáticamente claves de identificación para imprimirlas de la forma tradicional (utilizando paréntesis), o de forma tabular. El usuario introduce para cada carácter su confiabilidad asociada. La confiabilidad de un carácter se considera alta si: el carácter se puede aplicar fácilmente y de forma precisa a los taxones, el carácter separa de forma pareja a los taxones, y los resultados no son muy variables dentro de los taxones que aplica realizar la prueba. La forma como Key propone su mejor orden para usar los caracteres en la construcción de una clave que minimice los costos de identificación –dado un conjunto inicial de taxones– es basándose en una función comparativa K: de los caracteres restantes, el que tenga menor número K asociado es el que se propone en el primer lugar de la lista. Se asume que los costos son aditivos; es decir, el costo total de utilizar varios caracteres es la suma de los costos individuales, y también se asume que la mayoría de los caracteres tienen solo dos estados. Esta función depende evidentemente de cada carácter, y está dada por la fórmula (Dallwitz, Paine, & Zurcher, Key, 1993):. Figura 8. Función comparativa de Key (Dallwitz, Paine, & Zurcher, Key, 1993). Donde c es el costo de utilizar el carácter en cuestión, cmin es el costo mínimo de los caracteres bajo consideración, fj es la frecuencia total de los taxones del subconjunto j-ésimo, nj es el número de taxones en la clave j-ésima, s es el número de subconjuntos que resultan de utilizar el carácter en el conjunto inicial de taxones, y V es una función de variabilidad genética intra-taxón. Vale aclarar que si, al utilizar el carácter, se divide el conjunto inicial de taxones en s subgrupos, entonces para cada uno de estos subgrupos habría una sub clave de identificación; de ahí que se haya dicho que para cada subconjunto j -ésimo hay una j -ésima clave asociada.. 15.

(21) El costo de cada prueba y la frecuencia de cada taxón son dados por el experto basado en su experiencia. Si estos valores no se dan explícitamente, se toman todos los costos y frecuencias como iguales, y una nueva función de comparación podría estar dada por:. Figura 9. Función comparativa simplificada. Este programa es útil para generar e imprimir claves de identificación, pero no es un programa interactivo de identificación, lo cual limita su uso para el problema de identificación. Sin embargo, Key aporta ideas para discriminar taxones en una identificación y para la generación automática de claves.. Intkey Intkey es un programa basado en el formato DELTA para la identificación interactiva de especímenes de diversos organismos. Intkey también permite consultar la información acerca de caracteres y taxones del dominio en cuestión. Intkey debe instalarse en la máquina a usar y solo puede correr sobre máquinas basadas en Windows NT/95 o posterior, lo cual limita su uso para usuarios de los demás sistemas operativos. Este programa puede ser utilizado de forma personal sin costo siempre que no se obtenga ninguna ganancia monetaria como resultado de su uso1. Intkey permite identificar taxones comparando sus atributos con descripciones almacenadas en un banco de datos cargado de forma local o remota (Dallwitz, Paine, & Zurcher, Intkey, 2000). La identificación se realiza separando taxones a partir de preguntas que pueden ser ordenadas de forma similar a Key. El programa ofrece información para cada taxón, incluyendo descripción, atributos importantes e imágenes. Las pruebas también tienen la posibilidad de ilustrar sus resultados mediante imágenes. Intkey es flexible en el sentido en que puede ser aplicado a varias clasificaciones de seres vivos como por ejemplo a clasificaciones de cedros, arañas, levaduras, etc. Adicionalmente, Intkey le permite al usuario definir un límite máximo de errores cuando se está identificando un espécimen. Es decir, un taxón sólo se descarta cuando sobrepasa dicho límite. Evidentemente, si este límite es cero, el taxón se descarta tan pronto un carácter (i.e., prueba de identificación) no coincide con el resultado obtenido.. 1. Si se utiliza en una institución académica, es necesario registrar el software: la licencia de este producto es de 400 USD por primera vez y 100 USD por cada licencia adicional.. 16.

(22) Figura 10. Pantallazo de Intkey en modo de identificación. Las principales ventajas de Intkey son: es posible realizar una identificación interactiva accediendo a los datos de forma remota. Adicionalmente, se considera muy útil que los bancos de datos que existen para Intkey puedan identificar muestras de diversos organismos en distintas clasificaciones. El hecho de poder realizar identificaciones exitosas por errores de usuario o de los datos también es una característica deseable. Así mismo, el hecho de que el programa contenga información detallada de caracteres y taxones lo convierte en una herramienta de alto valor pedagógico. Finalmente, en Intkey es posible utilizar una variedad de caracteres alternativos en una identificación, lo cual aporta flexibilidad al proceso. Sin embargo, para los efectos de este trabajo y su motivación, Intkey no tiene ningún banco de datos de bacterias. Se podría pensar en construir uno de bacterias, pero también se quiere que el sistema pueda ser usado para varias clasificaciones de organismos (no solo bacterias) de forma jerárquica, lo cual no es posible utilizando esta herramienta. Además si el sistema se utiliza extensivamente en una institución académica con propósitos investigativos es necesario pagar licencias de uso, lo cual aumenta el costo total de uso de esta herramienta.. Ikia Ikia es un sistema de identificación de especímenes de libélulas colombianas desarrollado en la Universidad de los Andes por César Augusto Montaña. La identificación de especies se puede hacer mediante la ayuda de claves dicotómicas ingresadas al sistema por varios autores. Adicionalmente, se pueden utilizar redes neuronales, previamente entrenadas por un experto, 17.

(23) para identificar los especímenes a partir de imágenes con ciertas características de calidad de varias especies de libélulas para poder ser utilizadas por la red. Para entrenar la red neuronal, se utilizaron varias imágenes de alas de distintas especies de libélulas obtenidas por LAZOEA (Laboratorio de Zoología y Ecología Acuática de la Universidad de los Andes). Las imágenes se procesaron mediante distintas herramientas de manipulación gráfica para dejar las imágenes con unos parámetros de calidad suficientes para aportar información útil al entrenamiento de la red. Una vez se obtienen los pesos de las conexiones de la red como resultado del entrenamiento, éstos se guardan en el sistema para que esta red pueda ser utilizada posteriormente para identificar alguna muestra a partir de una imagen del ala de la libélula espécimen, que es la parte del cuerpo en que se concentran todas las imágenes del entrenamiento (Montaña, 2006). Una ventaja del sistema es que cuando se utilizan claves dicotómicas y se está determinado un taxón, es posible utilizar varios segmentos de clave. Es decir, si una característica no se puede determinar se pueden utilizar otras que sí estén disponibles para continuar una identificación. Cada vez que se responde una pregunta, el proceso continúa a otra pregunta o bien a un taxón. A medida que se avanza en una identificación, el sistema va recorriendo la clasificación de forma jerárquica hasta llegar a una especie, característica deseable para el sistema que se quiere implementar. Adicionalmente, es posible acceder a la aplicación y a los datos de forma remota. Además, el costo de la utilización del sistema es bajo en comparación de otras herramientas como API, Gen III y Vitek 2. Se considera que el hecho de tener la información de caracteres y taxones en un mismo repositorio aporta valor pedagógico considerable. Dentro de las desventajas de utilizar Ikia se encuentran: para que una identificación sea exitosa utilizando redes neuronales, es necesario que el espécimen que identifica a la muestra se encuentre dentro de los taxones que identifica la red neuronal, por supuesto. Si se quiere identificar un espécimen que no esté dentro de aquellos taxones, es necesario volver a entrenar la red con información obtenida a partir de suficientes imágenes para la nueva especie. Esto significa que si se ingresan constantemente nuevos taxones al sistema, se tendrían que entrenar constantemente las redes para poder ser utilizadas. Además, para tener redes neuronales confiables, es deseable tener bastantes datos de entrenamiento por taxón a identificar para evitar errores por falta de completitud de la información. La solución de identificación por redes neuronales está fuertemente ligada al procesamiento de imágenes, lo cual puede dificultar su generalización a diversos dominios donde se encuentren otro tipo de organismos (como las bacterias). Así mismo, no es posible realizar identificaciones exitosas por errores del usuario o de los datos cuando se utilizan claves dicotómicas, y además no existen claves de interacción de múltiple acceso, lo cual le resta flexibilidad a una identificación interactiva.. 18.

(24) Resumen Los trabajos anteriores dan una idea de las herramientas tecnológicas disponibles para identificar muestras de organismos, entre ellos bacterias. No obstante, para algunas el costo de adquirirlas o utilizarlas puede ser muy elevado como el sistema Vitek 2, Gen III, o el método de secuenciación de cadenas genéticas. Además, el sistema Vitek 2 está enfocado más que todo hacia la identificación de microorganismos patógenos para diagnosticar enfermedades y formular antibióticos. Aunque dentro de los objetivos del proyecto identificación de crecimiento de microorganismos en piezas plastinadas se encuentra la identificación de dichos microorganismos, se está dejando por fuera los demás microorganismos que no necesariamente son patógenos pero que pueden deteriorar las piezas plastinadas como algunas bacterias de importancia ambiental. Por otro lado, las técnicas de secuenciación requieren aparatos muy costosos, y realizar pruebas bioquímicas puede proveer características fisiológicas de los microorganismos que no se pueden obtener por aquel método (Biolog, 2010). La prueba API se acomoda de buena forma a los requerimientos del equipo de investigadores del proyecto de identificación de crecimiento de microorganismos en piezas plastinadas, pero los costos de esta prueba a menudo obligan a buscar métodos alternativos como las pruebas bioquímicas convencionales. Más aún, la prueba API puede no ser tan pedagógica como un sistema interactivo para estudiantes de microbiología y otras ciencias por la simultaneidad del proceso (algo similar aplica para el sistema Gen III). Así mismo, para realizar una identificación se necesita un código, como se mencionó arriba, y para obtener este código es necesario no cometer ningún error en ninguna de las pruebas que conforman una tira API ni en la lectura de los colores; es decir, si se comete un error en alguna prueba no es posible obtener el código, y sin el código no se puede proceder a comparar el código con los perfiles de las bacterias conocidas. Además, pruebas como API se limitan a identificar microorganismos mediante pruebas bioquímicas; de forma que no es posible identificar muestras de otros organismos que sean identificados por pruebas de identificación distintas a las bioquímicas (especies de arañas identificadas por características visibles, por ejemplo). Las herramientas no interactivas tienen la ventaja de realizar identificación en una fracción de tiempo de las interactivas. No obstante, el costo de adquisición y utilización es muy alto para Vitek 2 y Gen III para ser utilizado intensivamente. La prueba API es menos costosa que estas herramientas, pero la realización de pruebas bioquímicas individuales todavía tiene vigencia por las siguientes razones: las pruebas bioquímicas individuales son más baratas que las otras herramientas, estas pruebas se pueden utilizar con motivos académicos, o bien estas pruebas se pueden utilizar para aportar certeza a una identificación bajo cualquier otro método. El programa Intkey es una herramienta adecuada para consultar pruebas y taxones de una clasificación, y para identificar especímenes, pero se queda corta a la hora de recorrer de forma jerárquica una clasificación: cada banco de datos que se carga al programa presenta una lista plana de taxones candidatos que se filtra a medida que se realizan las pruebas o caracteres. Lo anterior, no permite profundizar la identificación en los sub taxones de un taxón. Adicionalmente, 19.

(25) no es posible guardar una identificación en curso para ser resumida después, y al momento de escribir este documento no se había publicado ningún banco de datos de bacterias. Finalmente, Ikia es una herramienta que se puede extender fácilmente para identificar otro tipo de organismos en otras clasificaciones pero no tiene la posibilidad de utilizar claves interactivas de múltiple acceso, lo cual es una característica deseable por su flexibilidad. Las redes neuronales en el sistema son una cualidad importante pero su uso se complica cuando se tiene una colección de taxones que crece constantemente por el continuo entrenamiento de las redes, y además, el alto volumen necesario de imágenes digitales para poder usar esta facilidad limita su uso (Montaña, 2006). Además, las muestras del problema de identificación de bacterias son microscópicas, y una imagen tomada con un microscopio convencional no siempre aporta los detalles suficientes para identificar la especie a la que pertenece la muestra.. Identificación del aporte Partiendo de los trabajos investigados, es claro que hay características deseables para el problema de identificación interactiva que no están del todo resueltos. Este trabajo pretende aportar algunos de los puntos ausentes en las soluciones existentes. Para empezar, la solución implementada permite una identificación jerárquica en una clasificación. La solución permite extender los organismos considerados (bacterias de importancia clínica y ambiental) a otros organismos en distintas clasificaciones. Adicionalmente, la solución es más barata que los métodos más avanzados de la tecnología (secuenciación, Vitek, Gen III, etc) conservando la precisión de los métodos de identificación convencionales (utilizando pruebas bioquímicas individualmente). Más aún, se considera que tener la información de las pruebas bioquímicas y de una clasificación en un mismo sistema facilita y reduce el tiempo de identificación de una muestra que si se utilizan las pruebas bioquímicas a partir de fuentes dispersas de conocimiento. Adicionalmente, la solución tiene la posibilidad de salvar identificaciones en curso y acceso en línea. Cabe mencionar que la solución de identificación es mixta, utilizando claves de múltiple acceso y diagramas de identificación lo cual le da a un investigador flexibilidad al identificar una muestra; esto ofrece un beneficio importante que es la elección de pruebas alternativas cuando en una identificación interactiva no se pueden satisfacer las pruebas propuestas por defecto. También, se pueden realizar pruebas de verificación para aportar certeza a un proceso de identificación. Finalmente, se espera que la naturaleza interactiva de la aplicación provea a los estudiantes y profesores de microbiología una herramienta pedagógica virtual de bajo costo.. Criterios de comparación Para comparar las herramientas presentadas, se definió un conjunto de criterios, que son explicados a continuación. En la valoración de los criterios se incluyen los siguientes valores especiales: ND significa que el valor para el criterio y la herramienta no se logró determinar, y un guión significa que el criterio no aplica para la herramienta.. 20.

(26) Costo: indica el costo de adquisición y uso de todos los materiales y equipos para utilizar cada herramienta. Los niveles que aparecen en la tabla son comparativos y relativos. Bacterias de importancia clínica: indica si la herramienta es capaz de identificar muestras bacterianas de importancia clínica. Otras bacterias: indica si la herramienta es capaz de identificar muestras bacterianas diferentes a las de importancia clínica. Otros organismos: indica si la herramienta es capaz de identificar muestras distintas a microorganismos. Extensible a varias clasificaciones de seres vivos: indica si los datos de la herramienta se pueden extender para identificar muestras de otras clasificaciones de seres vivos (libélulas, por ejemplo). Precisión: indica de forma cualitativa y relativa la precisión de cada herramienta para identificar muestras. Acceso remoto a la aplicación: indica si se pueden identificar muestras accediendo la aplicación desde internet. Acceso remoto a los datos: indica si los datos de la herramienta utilizados para identificar muestras (por lo general pruebas y taxones) pueden ser consultados desde internet. Identificación jerárquica: indica si la herramienta puede recorrer jerárquicamente una clasificación al identificar una muestra. Valor pedagógico: indica de forma relativa, según la opinión del autor, qué tanto sirve la herramienta para enseñar conceptos de identificación, pruebas, entre otros. Los sistemas interactivos se consideran mejores en este sentido por servir como repositorios de conocimiento. Salvar identificación en curso: indica si la herramienta puede guardar identificaciones en curso para ser resumidas después. Presencia de claves interactivas: indica si la herramienta puede realizar identificaciones utilizando claves de múltiple acceso. Identificación interactiva exitosa por errores de usuario o datos: indica si es posible realizar identificaciones exitosas cuando el usuario ingresa resultados erróneos, o si la información de la herramienta contiene errores. La matriz de comparación de las herramientas de identificación descritas en este capítulo se muestra a continuación. Además de esto, se agrega una columna para la solución propuesta (SIM).. 21.

(27) Criterio/Solución Costo Datos: Bacterias imp. clínica Otras bacterias Otros organismos Extensible a varias clasificaciones de seres vivos Precisión Acceso remoto a la aplicación Acceso remoto a los datos Identificación jerárquica Valor pedagógico Salvar ident. en curso Presencia de claves interactivas (de múltipleacceso) Identificación interactiva exitosa por errores de usuario o datos. Bajo. Bajo. Muy alto. Alto. Bajo. Muy alto. Gen III Muy alto. No No Sí. No No Sí. Sí Sí Sí. Sí No No. Sí Sí No. Sí No No. Sí Sí No. Sí Sí No. Sí ND No Sí No Alto No. Sí ND Sí Sí Sí Alto No. Sí Muy Alta Medio-Alto -. No Alta ND Bajo -. No Medio-Alta Alto -. No Alta ND Bajo -. No Alta ND Bajo -. Sí ND Sí Sí Sí Alto Sí. Sí. No. -. -. -. -. -. Sí. Sí. No. -. -. -. -. -. Sí2. Intkey. Ikia. Secuenciacion. API. P. Bioquímicas. Vitek 2. SIM Bajo. Tabla 2. Matriz de comparación. 2. La solución como tal se describe en este trabajo, pero no fue implementada. 22.

(28) 5. Solución propuesta: SIM En este capítulo se detalla de manera conceptual la solución propuesta: SIM (Sistema (Interactivo) de Identificación de Muestras). La descripción general del sistema se presenta en primer lugar. Después se detalla las características sobresalientes del sistema, los principales conceptos utilizados, y cómo se utilizan para realizar identificaciones interactivas. Dentro de las identificaciones interactivas, se detalla cómo se utilizan los diagramas de identificación dinámicos (claves de múltiple acceso) y estáticos para guiar a un investigador a identificar una muestra. También, se describe cómo se generan diagramas de manera automática. Finalmente, se describe el módulo de interpretación de resultados, y cómo se puede aportar tolerancia a errores del usuario y de la información en una identificación jerárquica.. Descripción general de SIM SIM es un sistema que permite apoyar una identificación de forma interactiva de una muestra de distintos organismos en una clasificación linneana. La idea de apoyar a un investigador es presentarle información tomada del mismo sistema para tomar una decisión que reduzca el error y/o permita reducir el tiempo de una identificación mediante una secuencia de pruebas. El sistema está en capacidad de recopilar información referente a pruebas de identificación y la clasificación tomadas de diversas fuentes bibliográficas. Una vez se tienen las pruebas y la clasificación, se pueden construir diagramas de identificación estáticos. Adicionalmente, se puede cargar al sistema información relacionada con los resultados obtenidos al aplicar un conjunto específico de pruebas a un conjunto específico de grupos (taxones) a partir de tablas con convenciones propias del dominio mediante el módulo de interpretación de resultados. Esta información puede ser utilizada para construir claves de múltiple acceso, y generar automáticamente diagramas de identificación. SIM se puede ver como una solución genérica para la identificación interactiva de muestras, por lo cual puede ser utilizada para identificar muestras de diversos dominios al capturar la información correspondiente más la implementación del respectivo módulo de interpretación de resultados de las pruebas del dominio.. Actores del sistema En SIM se identifican los siguientes actores principales: administrador del sistema, digitador de la información, revisor de la información, investigador y estudiante. El administrador del sistema es el encargado de crear usuarios y contraseñas y puede revocar cualquier acción tomada por otro actor. El digitador es el encargado de alimentar la base de datos del sistema. El revisor puede realizar las mismas funciones que el digitador y, además, es un asegurador de calidad de la información ingresada por éste. El investigador es uno de los usuarios finales de SIM cuya labor es la identificación de muestras bacterianas mediante una secuencia de pruebas bioquímicas 23.

(29) propuesta por el sistema. El estudiante es el otro usuario final de SIM y su labor es utilizar el sistema para aprender acerca de la clasificación, las pruebas bioquímicas y la forma de usar éstas para llegar a una identificación exitosa de una muestra. El estudiante tiene las mismas funciones del investigador solo que no es necesario que el estudiante haga las pruebas en el laboratorio.. Características sobresalientes de SIM SIM utiliza para la identificación de muestras un método que combina el uso de claves de múltiple acceso y diagramas de identificación. Este método permite navegar de forma jerárquica la clasificación, lo cual es una característica ausente en la mayoría de las herramientas investigadas (ver Capítulo 4). Así mismo, este método permite dar cierta flexibilidad al investigador pues es posible escoger pruebas alternativas a las propuestas en un determinado momento de una identificación. Además de esto, el sistema propone pruebas de verificación para aportar certeza a una identificación. Como se ha dicho en secciones anteriores, SIM busca minimizar costos en laboratorios que, dentro de sus formas de identificar microorganismos, utilicen pruebas bioquímicas. Esto no significa que SIM pretende remplazar otros métodos como Vitek 2 o secuenciación de cadenas genéticas; SIM busca ser una alternativa viable cuando no se puedan utilizar dichos métodos por su elevado costo o baja disponibilidad. Por viable, se quiere decir que el método de identificación sea lo suficientemente preciso para tener una relación costo beneficio que promueva su uso en laboratorios de microbiología, laboratorios de medicina, hospitales, universidades, etc. Otro punto clave del sistema, es que puede ser utilizado para identificar otro tipo de organismos. El requisito es que el taxón al que pertenece la muestra esté contenido en una clasificación linneana, y que la muestra se pueda identificar mediante pruebas que tengan un número finito de posibles resultados. Esto sugiere que el sistema es fácilmente generalizable para ser utilizado en otros dominios de las ciencias naturales que tengan problemas similares de identificación. Por otro lado, el sistema puede ser utilizado con o sin apoyo real en un laboratorio. Esto está pensado para facilitar el aprendizaje de los conceptos de biología que utiliza el programa: es decir, se puede simular una identificación sin entrar al laboratorio lo cual puede ser útil para la formación de estudiantes de microbiología y disciplinas similares. SIM también puede generar automáticamente diagramas de identificación a partir de características determinativas de grupos de especies. Adicionalmente, SIM puede servir de repositorio de conocimiento para la clasificación, pruebas de identificación y diagramas de identificación.. 24.

(30) Conceptos principales de SIM para realizar identificaciones En la descripción de la solución se utilizan los conceptos de pruebas, clasificación y diagramas de identificación de forma recurrente. A continuación se definen dichos conceptos para después explicar en mayor detalle la solución conceptual.. Pruebas de identificación Las pruebas de identificación tienen asociado un costo, unos fundamentos, unos documentos, y un número finito de posibles resultados. A su vez, cada resultado puede tener imágenes y otro tipo de documentos que puedan ser útiles al identificar un resultado de una prueba realizada en el laboratorio, por ejemplo.. Figura 11. Diagrama conceptual de las pruebas. Clasificación Una clasificación en SIM es sencillamente una jerarquía cuyos elementos son los taxones, y ningún taxón se repite en la clasificación. Cada nivel de la jerarquía corresponde a un nivel taxonómico. Es posible modelar la clasificación sin ser exhaustivo en la inclusión de los niveles taxonómicos; es decir, no es necesario que estén en el sistema todos los niveles encontrados en los libros para que el sistema funcione. Sin embargo, sí es necesario que estén todos los niveles a los que pertenezcan los taxones identificados por el sistema. Por ejemplo, si el sistema identifica de alguna forma un género en particular, entonces la clasificación debe incluir el nivel taxonómico “Género”, y dentro de él deben estar todos los géneros identificables por el sistema.. 25.

(31) Figura 12. Diagrama conceptual de la clasificación. Diagramas de identificación El concepto de clave de identificación se puede generalizar de la siguiente forma: cada pregunta se puede ver, en realidad, como un tipo particular de prueba de identificación, que se puede definir como cualquier procedimiento experimental que al terminar exitosamente arroje un resultado determinado dentro de un conjunto de posibles resultados. En cada prueba, así sea de forma implícita, siempre hay un conjunto de grupos que no han sido descartados y, por ende, pueden ser posibles candidatos a contener la muestra. Adicionalmente, el resultado de una prueba, o de forma más general, los resultados de un conjunto de pruebas se utilizan para avanzar al siguiente conjunto de pruebas. Este conjunto de pruebas, junto con sus candidatos, su historia y demás información relevante al proceso se denomina etapa de identificación. La historia es el conjunto de resultados obtenidos para todas las pruebas realizadas hasta el momento en una identificación. El conjunto completo de etapas constituiría un diagrama de identificación. Este diagrama tiene un flujo inducido por los resultados de las pruebas de cada etapa. Este concepto, cubre el de diagramas de flujo, o flowcharts que son utilizados en varios laboratorios de microbiología, por ejemplo. Propiedades y restricciones Las etapas están organizadas de una forma jerárquica, esto es, existe una etapa raíz, y cada etapa puede tener varias sub etapas y solo una etapa padre, a excepción de la etapa raíz. Los grupos asociados a una etapa son su conjunto de candidatos. Los candidatos de las sub etapas de una etapa deben pertenecer al mismo nivel de clasificación (especie, género, etc.). Además, los 26.

(32) candidatos de las sub etapas deben estar contenidos en los candidatos de la etapa o en alguno de sus grupos descendientes en la clasificación. Esta restricción tiene el objetivo de evitar que un digitador de SIM ingrese etapas cuyos candidatos de sus sub etapas identifiquen grupos que no son posibles identificar por estar ubicados en otro sub árbol de la clasificación. Dentro de cada etapa puede haber cualquier número de pruebas, en teoría. Para toda etapa, sus pruebas no pueden estar contenidas en la etapa padre, en caso de que no sea la raíz. Esta restricción está destinada a evitar pruebas repetidas en cualquier rama de la estructura de etapas, que es, al final de cuentas, la estructura del diagrama de identificación. Vale decir que el hecho de que una prueba no esté repetida en ningún camino de identificación del diagrama no significa que no pueda haber pruebas repetidas en el diagrama.. Figura 13. Relación entre diagramas, pruebas y clasificación. Es importante aclarar que no necesariamente toda etapa de identificación propuesta por SIM corresponde a un diagrama de identificación estático (persistido en el sistema). A veces, es posible que la etapa de identificación no pertenezca a ningún diagrama y sea parte de un camino generado dinámicamente a partir de tablas de características determinativas; estas etapas de identificación pueden ser vistas como parte de un diagrama de identificación dinámico. Estos diagramas dinámicos solucionan el problema del orden de las preguntas mencionado en las claves dicotómicas que también aplica para diagramas de identificación estáticos. No obstante, para no depender de un orden determinado es necesario tener la información de los resultados de todas las pruebas para todos los grupos de una clasificación. Cuando la clasificación es muy grande, como la de las bacterias, esto puede ser muy poco práctico. Esto sugiere que es mejor utilizar una clave de múltiple acceso cuando se tiene un conjunto reducido de grupos previamente identificados mediante diagramas de identificación estáticos. A partir de este punto, se podría 27.