77 3.3 Análisis de la integridad del ARN
5. PERFILES DE EXPRESIÓN DE TUMORES
5.3. Análisis de los datos
5.3.1. Extracción de los datos de la imagen
Para el análisis de la imagen y la extracción de los datos se empleó el paquete informático Feature Extraction v.9.5 de Agilent (Agilent Technologies, Palo Alto,
CA, EEUU), utilizando el protocolo de extracción recomendado para esta
plataforma (GE2-v5_95_Feb07). Con las dos imágenes obtenidas se realizó una extracción de los datos en la que se integraron los valores obtenidos para cada una. Este protocolo, elimina los puntos de baja calidad y obtiene los valores de expresión para cada uno de los clones a partir de los valores de fluorescencia extraídos. El programa permite a su vez, evaluar la calidad de la hibridación y descartar aquellos cristales que no cumplan con el criterio impuesto por la casa comercial para asegurar la correcta realización del experimento.
5.3.2. Normalización
Tras un primer filtrado de los datos con el programa Feature Extraction, se empleó el método normexp [103] para minimizar el fondo generado. La normalización se llevó a cabo en el entorno de programación estadístico R (http://www.r-project.org/ ) empleando la librería limma [104] disponible
públicamente a través de Bioconductor (Bioconductor project,
http://www.bioconductor.org). La normalización de los datos de expresión se realizó tanto intra-array (loess) como inter-array (quantiles) (Figura 6a).
90
5.3.3. Preprocesado de los datos
Los valores, una vez normalizados, fueron preprocesados mediante una herramienta incluida dentro del paquete informático Gene Expression Pattern
Analysis Suite New Release v3.1 (GEPAS, http://www.gepas.org) [105], mantenido
por el Centro de Investigación Príncipe Felipe (CIPF). Con esta herramienta se eliminaron las replicas inconsistentes de un mismo gen, es decir aquellas con una distancia máxima a la mediana del conjunto de réplicas ≥1. Así mismo, se agruparon las réplicas o clones idénticos del mismo gen de acuerdo al valor de la mediana del conjunto de las réplicas y se eliminaron los patrones planos, desechando todos aquellos clones cuya desviación estándar (SD) de los datos fuera <1. Finalmente se estandarizaron estos datos (Figura 6b).
A
B
A
B
Figura 6a. Representación gráfica del proceso de normalización de los datos obtenidos del
microarray. A) Estado de las muestras previo a la normalización. B) Estado de las muestras tras el
91
Figura 6b. Esquema representativo del análisis de datos de los microarrays.
5.3.4. Agrupamiento No Supervisado
Con objeto de agrupar inicialmente los tumores en función de sus niveles globales de expresión, se emplearon algoritmos jerárquicos de agrupamiento disponibles en el paquete informático Gene Cluster (http://rana.standford.edu /software). La visualización del resultado de este análisis se llevó a cabo utilizando el visor Java TreeView (http://jtreeview.sourceforge.net/).
Para confirmar los resultados de este agrupamiento, se empleó el algoritmo de
clustering robusto denominado Consensus Clustering [106]. Este método emplea
un amplio rango de algoritmos (jerarquicos, k-medias, mapas de Kohonen, etc) junto con técnicas de re-muestreo e introduce perturbaciones en los datos originales y, a través de múltiples agrupaciones (Ej. 100 re-muestreos), es capaz de estimar el numero óptimo de agrupamientos presentes en los datos y detectar la robustez de dichos agrupamientos. Los agrupamientos más estables resultantes de las múltiples interacciones entre los distintos parámetros fueron definidos y empleados en subsiguientes análisis.
Normalización Preprocesado de Datos Agrupamiento No Supervisado Estudio Supervisado Pomelo II Gene Expression Pattern Analysis Suite (v3.1) Enriquecimiento Funcional Normalización Preprocesado de Datos Agrupamiento No Supervisado Estudio Supervisado Pomelo II Gene Expression Pattern Analysis Suite (v3.1) Enriquecimiento Funcional
92
Se llevaron a cabo otros estudios no supervisados utilizando para ello una lista de genes diana de HIF recientemente descritos [107]. La lista incluía tanto genes dianas confirmados (58) como potenciales dianas (500), y se utilizó para eliminar los patrones planos una SD=0,8.
5.3.5. Análisis Supervisado
Con el fin de encontrar listas de genes diferencialmente expresados entre las distintas clases genéticas de tumores, se realizó un análisis supervisado de los
datos de expresión mediante la herramienta POMELO II
(http://pomelo2.bioinfo.cnio.es) desarrollada por el Grupo de Bioinformática del CNIO [108]. Esta herramienta permite hacer comparaciones por pares de las clases de interés, empleando modelos lineales asociados a los niveles de expresión de los genes y aplicando un test bayesiano para obtener aquellos diferencialmente expresados (t-test limma en la aplicación). El valor de significación se estimó atendiendo al p-valor, que fue ajustado por False Discovery
Rate (FDR) usando la corrección de Benjamini [109]. Aquellos genes con un
FDR<0,05 ó FDR<0,15, dependiendo de la comparación, fueron seleccionados como diferencialmente expresados de manera significativa entre las clases comparadas.
5.3.6. Análisis Funcional
Para el análisis de enriquecimiento de bloques de genes entre las clases genéticas comparadas se utilizó el método Gene Set Enrichment Análisis, GSEA [110]. Este método testa grupos de genes con una anotación funcional común como por ejemplo una misma ruta biológica. Para ello emplea una lista de genes ordenados y determina si los grupos de genes se encuentran sobre-representados en alguna de las clases comparadas. Para ordenar los genes, se realiza un t-test
limma moderado a las comparaciones y se aplica el test no paramétrico de
Kolmogorov-Smirnoff considerando un FDR≤0,25 como significativo para la identificación de rutas biológicamente relevantes [111]. Para aplicar este método se emplearon tres fuentes de anotación funcional distintas:
Biocarta pathways: conjunto de modelos gráficos dinámicos que muestran
93
acuerdo a la nueva información disponible (http://www.biocarta.com/genes /index.asp).
KEGG (Kyoto Encyclopedia of Genes and Genomes) pathways: colección de
mapas de rutas, depuradas manualmente, que representan el conocimiento existente sobre las interacciones moleculares y redes de reacciones entre el metabolismo, el procesado de información genética, el procesado de información ambiental, los procesos celulares, las enfermedades humanas y el desarrollo de drogas (http://www.genome.jp/kegg/).
Gene Ontology (GO): ontología de términos biológicos diseñada con el fin de
estandarizar y sistematizar la nomenclatura de los procesos biológicos, de las funciones moleculares y de la localización subcelular de los productos de los genes conocidos. GO representa el conocimiento biológico como un árbol jerárquico, de manera que, los niveles superiores representan conceptos
biológicos más generales y los inferiores los más precisos
(http://geneontology.org).
5.3.7. Identificación de una firma molecular relacionada con pronóstico mediante la aplicación de un predictor
Un predictor es una herramienta matemática que utiliza diferentes conjuntos de datos (Ej. los transcriptomas) correspondientes a diferentes clases de objetos (Ej. tumores benignos y tumores malignos) para aprender a distinguir entre dichas clases. El aspecto más importante de este proceso de aprendizaje es la evaluación del clasificador generado. Se utilizó el programa Tnasas, incluido en el paquete de herramientas Asterias, para construir un clasificador de pronóstico clínico a partir de nuestros tumores [112]. Tnasas se basa en un esquema de validación cruzada especialmente diseñado para producir errores de validación imparciales. Este programa incorpora diferentes métodos para la selección de genes y para la predicción. En este estudio, se utilizó el algoritmo SVM [113] con el método Kernel de función de bases radiales, para generar la regla de clasificación de los tumores, y el F-ratio para seleccionar el mínimo número de genes que mejor clasificaban los casos de acuerdo a la clase a la que debían pertenecer.
El análisis se llevó a cabo a partir de PCCs/PGLs de mal pronóstico o malignos (M) (aquellos procedentes de pacientes con metástasis), y de PCCs/PGLs de buen pronóstico o benignos (B), procedentes de pacientes que no presentaban metástasis en el momento del diagnóstico ni durante un amplio seguimiento (más de ocho años). Los resultados del predictor fueron visualizados con el programa Java TreeView
94
(http://jtreeview.sourceforge.net/), tras realizar un agrupamiento jerárquico no supervisado únicamente con los datos de expresión de los genes que componían la firma molecular de pronóstico. Para ello se empleó el programa Gene Cluster, (http://rana.standford.edu /software) utilizándose la distancia euclídea para calcular la distancia entre los genes y la correlación linear para calcular la distancia entre los distintos tumores. El algoritmo empleado en el clustering fue UPGMA [114].