• No se han encontrado resultados

Consistencia e integridad de información

Minería de datos

2.3. Entendimiento de datos

2.3.2. Consistencia e integridad de información

Las tecnologías de alto rendimiento generan bases de datos de elevada dimen- sión y estructura. Sin embargo, los datos de estas salidas se encuentran lejos de transformarse en información útil para el investigador. Para ello, es necesario poder relacionar dichos datos con conocimiento previamente adquirido por la comunidad científica. Justamente aquí es donde entra en juego el concepto de consistencia e

integridad sobre la información contenida en bases de datos de anotación.

Bases de datos de anotación

La información de anotación almacenada en estas bases de datos comprende el conocimiento existente. Diferentes organizaciones y consorcios que mantienen bases de datos biológicas con diversa intencionalidad. Justamente, en función de ello será el tipo de dato que se almacena. Algunas son específicas para un organismo como

46 Capítulo 2. Minería de datos

por ejemplo FlyBase para Drosophila (moscas, FlyBase Consortium (1994)) o la base de datos para el proteoma de levaduras (YPD,Yeast Proteome Database) para Saccharomyces cerevisiae (Hodges et al., 1999) o para compuestos y reacciones quí- micas como PubChem (Bolton et al.,2008). Incluso existen algunas que pretenden incorporar información de diferentes organismos a nivel de genes como en Entrez Gene (Maglott et al., 2011), proteínas enUniProt (Apweiler et al., 2004) y PIR

(Wu et al., 2002), incluso vías metabólicas como en Reactome (Joshi-Tope et al.,

2005) y KEGG (ver, sección 1.1.2), o vocabulario controlado como en GO (ver, sección 1.1.1).

Cada uno de estos repositorios almacena la información mediante bases de datos relacionales con un esquema propietario. En el mejor de los casos, estas bases de datos son de libre acceso, tanto al esquema como a los datos. No obstante, el desafío es poder relacionar todo ese conocimiento para cada secuencia, proteína o gen que brinda la tecnología de alto rendimiento utilizada.

En el caso de 2D-DIGE, la identificación es un proceso a posterior del análisis de los datos, como vimos en la sección 2.3. Mientras que al utilizar microarreglos el fabricante usualmente provee un archivo de anotación a priori, dado que sabe qué secuencia de ADNc u oligonucleótidos se encuentra en cada posición de la grilla. A su vez, los fabricantes ofrecen diferentes archivos de anotación, donde utilizan identificadores propietarios para relacionarlos con las diferentes bases de datos. Si bien las diferentes tecnologías proveen de software propietario para analizar los datos, existe una serie de problemas de consistencia e integridad cuando el investigador pretende realizar análisis acorde a sus necesidades.

Inconvenientes en la utilización de la anotación

En el contexto de análisis de datos de alto rendimiento, es habitual utilizar simultáneamente diferentes herramientas bioinformáticas. Cada una de ellas fue- ron desarrolladas para un propósito específico, presentando diferentes caracterís- ticas/fortalezas. En algunos casos, funcionan de forma cerrada (cajas negras), no permitiendo acceder a los resultados de etapas intermedias o extender sus funcio- nalidades. Este suele ser el caso de los software propietarios asociado al equipo que obtiene los datos. Por otra parte, es usual que las diferentes herramientas se encuen-

2.3. Entendimiento de datos 47

tren ligadas a un tipo de identificador (ID) particular. Aquí nos encontramos frente a un problema de consistencia, donde es necesario realizar una conversión de ID

para poder utilizar dichas herramientas.

En sí misma la conversión no es un proceso trivial, dado que depende de mu- chos factores como las estructuras de almacenamiento, cómo se estable la relación entre bases de datos, cuáles son las versiones compatibles, etc. Desafortunadamen- te la mayoría de las herramientas disponibles no documentan cómo realizan dicho proceso. Si bien existen conversores que dicen soportar muchos tipos de IDs, ello no implica que establezcan de forma adecuada la relación entre la base de datos origen y la de destino. Todas estas particularidades hay que tener en cuenta a la hora de realizar la conversión de IDs. En este contexto Huang et al. (2009a) recomiendan utilizar Onto-Translate (Draghici et al., 2003), MatchMiner (Bussey et al., 2003), IDConverter (Alibés et al., 2007) y DAVIDIDConverter (Huang et al., 2007). La- mentablemente los IDs que no logren ser emparejados se pierden, lo cual introduce sesgo sobre la información biológica disponible para el análisis. Consecuentemente, algunas proteínas/genes pueden no participar del análisis, a pesar de que pueden tener un rol crucial en el contexto del experimento.

Otro problema de consistencia se encuentra directamente asociado al tipo de ID utilizado en el análisis (Zeeberg et al., 2004). El símbolo es uno de los más utilizados y consiste de un mnemónico corto, empleado para referirse a la proteína o gen en cuestión. Por ejemplo, enHomo sapiens para el gen “septin 9”, se utiliza el símbolo “SEPT9”. Si bien “SEPT9” resulta más inteligible para el investigador que su contra parte en Entrez Gene ID, “10801”, cuando es utilizado en programas tipo Microsoft ExcelR es transformado a un dato de tipo fecha “Sep-09”. Adicionalmente,

los símbolos no siguen una convención unificada para su denominación, como por ejemplo, utilizar parte de la descripción del gen. De hecho, en muchos casos son acrónimos del apellido del investigador que reportó su aparición. Incluso pueden ser referido en publicaciones contemporáneas con distintos símbolos, dando lugar a los

“alias” o “sinónimos” conocidos del gen. Siguiendo con el ejemplo de “SEPT9”, a

la fecha cuenta con los siguientes sinónimos: MSF, MSF1, NAPB, SINT1, PNUTL4, SeptD1 y AF17q25. En otros casos, más de un gen diferente puede compartir el mismo símbolo. Por ejemplo, el símbolo “ANXA8” refiere a tres genes cuyos símbolos

48 Capítulo 2. Minería de datos

oficiales a la fecha son ANXA8, ANXA8L1 y ANXA8L2, siendo que son tres entidades diferentes. Justamente, debido a todos estos problemas de consistencia e integridad de datos, el comité para la nomenclatura de genes humanos (HGNC, de sus siglas en inglés, Povey et al. (2001)) realiza un gran esfuerzo por normalizar la nomenclatura de los símbolos. Esta situación da lugar a un nuevo problema, la estabilidadde los IDs.

La estabilidad usualmente es un problema subestimado, siendo que no es uno menor. La utilización de los símbolos es, sin lugar a dudas, el caso más crítico (Zee- berg et al., 2004), dado que tanto el HGNC como otros consorcios los modifican en forma recurrente. Esto impacta en la imposibilidad dereproducción de los resul-

tados publicados en un artículo científico. Sumado a lo anterior, las herramientas

disponibles usualmente no publican la versión de base de datos que poseen ins- talada, siendo común la imposibilidad de su utilización por diferencias en la versión utilizada. Por otra parte, el mayor problema es la falta de trazabilidadde los IDs dentro de una misma base de datos. En este aspecto, algunos consorcios solo mantie- nen el registro actual de las proteínas/genes, no permitiendo acceder a las versiones anteriores; o incluso desde la versión anterior no es posible acceder al registro actual, perdiendo así su trazabilidad. De esta manera, el investigador no sabe si: i) existe evidencia de que dicho ID en realidad no tiene una función biológica, ii) se unificó con otro identificador o iii) ha sido actualizado por uno nuevo.

Todos los problemas anteriores de consistencia e integridad hacen que la ano- tación posea en sí misma gran complejidad. A ellos hay que sumarles el agravante de que, dependiendo de las bases de datos de anotación utilizada, la conversión o la propia trazabilidad de un único identificador debe realizarse de forma manual. Esta situación es impracticable si se considera el caudal de datos que generan las tecnologías de alto rendimiento. Es decir, no existe un acceso programático (sin su- pervisión del usuario) para realizar las diferentes tareas requeridas sobre las decenas a centenas de miles de IDs involucrados en un experimento.