An´ alisis descriptivo - Análisis de datos de microarrays

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al an´alisis descriptivo de los mismos.

3.2.1 Variables categ´oricas

Para variables categóricas, como el sexo, se quiere conocer el número de casos en cada una de las categor´ıas, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. Estas frecuencias se suelen expresar de forma gráfica mediante los diagramas de barra (barplots)y los gráficos circulares o de pastel (piecharts).

El ejemplo que usamos a continuaci´on muestra c´omo leer la secuencia de “X94991.1” de la especie Homo sapiens en el GenBank, para la construcci´on de una tabla de frecuencias y un gr´afico de pastel. Un gen se compone de una secuencia de

nucleótidos donde cada nucleótido puede ser de cuatro tipos: A, C, G, T. El número de veces que aparece cada nucleótido se pueden mostrar en una tabla de frecuencias. Poe ejemplo, para el gen Zyxin.

Paquete APE en R El paquete APE nos proporciona funciones para leer y manipular los ´arboles filogen´eticos y las secuencias de ADN. > if(!(require("ape"))) + install.packages(c("ape"),repo="http://cran.r-project.org",dep=TRUE) > require(ape) > print(t<- table(read.GenBank(c("X94991.1"),as.character=TRUE)) ) a c g t 410 789 573 394 > pie(as.numeric(t)) Figura 18

Pie Chart. El pie chart o gr´afico de pastel es un gr´afico de sectores que nos representa el porcentaje en que se dan los valores de una variable.

Figura 18. Pie Chart o gr´afico de pastel

a c

3.2.2 Variables num´ericas:

Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis diferente, respon- diendo a las siguientes preguntas:

1) ¿C´omo se distribuyen los datos?

2) ¿Alrededor de qu´e valor se agrupan los datos?

3) Si suponemos que se agrupan alrededor de un n´umero, ¿c´omo lo hacen? ¿Muy concentrados? ¿Muy dispersos?

3.2.3 Gr´aficos:

Para desarrollar los ejemplos de este apartado usaremos los datos de expresión génica recogidos por Golub et al.(1999) [24]. Una serie de datos del conjunto Golub está contenido en el paquete multtest, que es parte de Bioconductor.

Referencia

Estos datos han sido procesados por los procedimientos descritos en Dudoit et al. (2002)

Los datos de este dataset consisten en valores de expresión génica (3051 filas de genes) de 38 pacientes enfermos de leucemia. A veintisiete pacientes se les diagnosticó leucemia linfoblástica aguda (ALL) y a once la leucemia mieloide aguda (AML). La clase de tumor viene dada por el vector numérico golub.cl, donde ALL se indica con el valor 0 y AML por el valor 1. Los nombres de los genes se recogen en la matriz golub.gnames donde sus columnas corresponden al número ´ındice de los genes, el ID y el nombre, respectivamente.

Histogramas: Una primera aproximaci´on de las variables se puede obtener a

partir de la visualización de los datos. Para visualizar los datos con un histograma deberemos dividir el rango de valores en un número de intervalos iguales y rep- resentar las frecuencias por un intervalo que se dibujará como un rectángulo de altura proporcional a esta frecuencia. Como ejemplo vamos a crear un histograma a partir de los valores de expresión génica del gen "CCND3 Cyclin D3" de los pacientes con leucemia linfoblástica aguda, es decir aquellos que se etiquetan como “ALL”, citados en el estudio de Golub et. al. (1999) ([24]). Para ello hemos de cargar los datos que se encuentran como ejemplo en la libreria multtest mediante la instrucción data(golub). Esta instrucción cargará en memoria la matriz de expresiones golub, junto a otros objetos entre los que se encuentra golub.cl, un vector de 0 y 1 correspondiente a los valores de “ALL” y “AML” respectivamente, para cada gen. Lo primero que se debe realizar es convertir este vector numérico a factor, para luego seleccionar el gen a estudiar (en nuestro caso corresponde a la fila 1042 de la matriz de expresiones) y poder realizar el histograma.

Paquete MULTTEST en Bioconductor

multtest contiene funciones para realizar múltiples test de hipótesis basadas en técnicas de remuestreo y además contiene los datos que vamos a trabajar > if(!(require("multtest"))) + {source("http://bioconductor.org/biocLite.R") + biocLite("multtest") + } > require(multtest) > data(golub) > gol.fac<-factor(golub.cl,levels=0:1, labels=c("ALL","AML")) > hist(golub[1042, gol.fac=="ALL"])

Figura 19

Histograma. Un Histograma es la representaci´on grafica de una variable en forma de barras, donde la superf´ıcie de cada barra es proporcional a la frecuencia de los valores representados.

Histogram of golub[1042, gol.fac == "ALL"]

golub[1042, gol.fac == "ALL"]

Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 2 4 6 8 10 12

La función hist() en R divide nuestros datos en 5 intervalos de amplitud igual a 0.5. En el gráfico anterior podemos observar como los valores estan más o menos simétricamente distribuidos alrededor de la media.

BoxPlot: El diagrama de caja se obtiene ordenando los n valores y calculando

los siguientes cuartiles:

Cuartil 25% (primer cuartil): valor del conjunto de datos para el que el 25% de los datos son menores que ´el.

Cuartil 75% (tercer cuartil): valor del conjunto de datos para el que el 75% de los datos son menores que ´el.

Este gráfico consiste en un rectángulo (caja) que comprende los 2 cuartiles anteri- ores de cuyos lados (superior e inferior) se derivan dos segmentos respectivamente: uno hacia arriba y uno hacia abajo (llamados bigotes). Este rectángulo está di- vidido en 2 a partir del valor medio de los datos. Más allá de los bigotes o brazos de la caja se hallan las observaciones at´ıpicas o extremas defindas como ls valores que superan 1.5 veces el rango intercuartil.

Para visualizar este gráfico vamos a escoger un ejemplo bioinformático. Con la construcción de dos diagramas de caja para la expresión del gen CCND3 Cyclin D3, podemos tener una idea de la distribución de ALL y AML.

> boxplot(golub[1042,] ~ gol.fac)

Figura 20

Boxplot. Un Boxplot o diagrama de caja es un gr´afico en forma de caja que se crea a partir de los cuartiles y que nos permite detectar valores extremos y ver la s´ımetria de una distribuci´on.

Como podemos observar por la posición de las cajas los valores de expresión génica para ALL son mayores que los de AML. Además, dado que los dos recuadros alrededor de la mediana son más o menos igual de anchos, podemos decir que los datos están distribuidos razonablemente de forma simétrica alrededor de la mediana.

Figura 20. Boxplot ALL AML −0.5 0.0 0.5 1.0 1.5 2.0 2.5

3.2.4 Estad´ısticos descriptivos

Existen varias formas para describir la tendencia central, as´ı como la dispersión de los datos. En particular, la tendencia central puede ser descrita por la media o la mediana y la dispersión por la varianza, la desviación estándar y el rango intercuartilico o la desviación absoluta media.

Medidas de tendencia central

Los estad´ısticos descriptivos de tendencia central m´as importantes son la media y la mediana. La media muestral de un conjunto de valores: x1. . . xn se define

como:

x = 1_n Pxi= 1n(x1+− − − − +xn)

La mediana se define como el segundo cuartil y se denota X0.5. Cuando los

datos se distribuyen simétricamente alrededor de la media entonces la media y la mediana son iguales. Como los valores extremos no influyen en el tamaño de la mediana, es muy robusta frente a datos at´ıpicos. La robustez es importante en bioinformática porque los datos están frecuentemente contaminados por valores extremos (outliers).

El término robustez se utiliza en estad´ıstica para hacer referencia a ciertas carac- ter´ısticas deseables de los procesos estad´ısticos. Se dice que un proceso es robusto respecto de las desviaciones de los supuestos del modelo, cuando el proceso con- tinúa funcionando bien, aún cuando, en mayor o menor extensión, los supuestos no se mantienen. En el ejemplo siguiente veremos como se calculan los cuartiles de una muestra. Para calcular los valores exactos de los cuartiles podemos usar el código siguiente con una secuencia de 0.00 a 1.00 con intervalos equivalentes a 0.25 cómo:

> pvec<-seq(0,1,0.25)

> quantile(golub[1042, gol.fac=="ALL"],pvec)

El primer cuartil esX0.25= 1.796, el segundoX0.50 = 1.928 y el terceroX0.75 =

2.179.

Medidas de dispersi´on

Las medidas más importantes de dispersión son la desviación estándar, el rango intercuart´ılico y la desviación absoluta media. La desviación estándar es la ra´ız cuadrada de la varianza de la muestra, que se define como:

s2= 1 n− 1 X (xi− x)2= 1 n− 1[(x1− ¯x) 2 + ... + (xn− ¯x)2]

Por lo tanto, la varianza es el promedio de la diferencia al cuadrado entre los valores de datos y la media de la muestra. La desviación estándar de la muestra es la ra´ız cuadrada de la varianza y puede interpretarse como la distancia de los datos a la media. La varianza y la desviación estándar no son estad´ısticos robustos frente a datos at´ıpicos.

El rango intercuart´ılico se define como la diferencia entre el tercer y el primer cuartil, es decir,R = x0.75− x0.25.

In document Análisis de datos de microarrays (página 81-86)