Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al an´alisis descriptivo de los mismos.
3.2.1 Variables categ´oricas
Para variables categ´oricas, como el sexo, se quiere conocer el n´umero de casos en cada una de las categor´ıas, reflejando habitualmente el porcentaje que representan del total, y expres´andolo en una tabla de frecuencias. Estas frecuencias se suelen expresar de forma gr´afica mediante los diagramas de barra (barplots)y los gr´aficos circulares o de pastel (piecharts).
El ejemplo que usamos a continuaci´on muestra c´omo leer la secuencia de “X94991.1” de la especie Homo sapiens en el GenBank, para la construcci´on de una tabla de frecuencias y un gr´afico de pastel. Un gen se compone de una secuencia de
nucle´otidos donde cada nucle´otido puede ser de cuatro tipos: A, C, G, T. El n´umero de veces que aparece cada nucle´otido se pueden mostrar en una tabla de frecuencias. Poe ejemplo, para el gen Zyxin.
Paquete APE en R El paquete APE nos proporciona funciones para leer y manipular los ´arboles filogen´eticos y las secuencias de ADN. > if(!(require("ape"))) + install.packages(c("ape"),repo="http://cran.r-project.org",dep=TRUE) > require(ape) > print(t<- table(read.GenBank(c("X94991.1"),as.character=TRUE)) ) a c g t 410 789 573 394 > pie(as.numeric(t)) Figura 18
Pie Chart. El pie chart o gr´afico de pastel es un gr´afico de sectores que nos representa el porcentaje en que se dan los valores de una variable.
Figura 18. Pie Chart o gr´afico de pastel
a c
g
t
3.2.2 Variables num´ericas:
Para variables num´ericas, en las que puede haber un gran n´umero de valores observados distintos, se ha de optar por un m´etodo de an´alisis diferente, respon- diendo a las siguientes preguntas:
1) ¿C´omo se distribuyen los datos?
2) ¿Alrededor de qu´e valor se agrupan los datos?
3) Si suponemos que se agrupan alrededor de un n´umero, ¿c´omo lo hacen? ¿Muy concentrados? ¿Muy dispersos?
3.2.3 Gr´aficos:
Para desarrollar los ejemplos de este apartado usaremos los datos de expresi´on g´enica recogidos por Golub et al.(1999) [24]. Una serie de datos del conjunto Golub est´a contenido en el paquete multtest, que es parte de Bioconductor.
Referencia
Estos datos han sido procesados por los procedimientos descritos en Dudoit et al. (2002)
Los datos de este dataset consisten en valores de expresi´on g´enica (3051 filas de genes) de 38 pacientes enfermos de leucemia. A veintisiete pacientes se les diagnostic´o leucemia linfobl´astica aguda (ALL) y a once la leucemia mieloide aguda (AML). La clase de tumor viene dada por el vector num´erico golub.cl, donde ALL se indica con el valor 0 y AML por el valor 1. Los nombres de los genes se recogen en la matriz golub.gnames donde sus columnas corresponden al n´umero ´ındice de los genes, el ID y el nombre, respectivamente.
Histogramas: Una primera aproximaci´on de las variables se puede obtener a
partir de la visualizaci´on de los datos. Para visualizar los datos con un histograma deberemos dividir el rango de valores en un n´umero de intervalos iguales y rep- resentar las frecuencias por un intervalo que se dibujar´a como un rect´angulo de altura proporcional a esta frecuencia. Como ejemplo vamos a crear un histograma a partir de los valores de expresi´on g´enica del gen "CCND3 Cyclin D3" de los pa- cientes con leucemia linfobl´astica aguda, es decir aquellos que se etiquetan como “ALL”, citados en el estudio de Golub et. al. (1999) ([24]). Para ello hemos de cargar los datos que se encuentran como ejemplo en la libreria multtest mediante la instrucci´on data(golub). Esta instrucci´on cargar´a en memoria la matriz de ex- presiones golub, junto a otros objetos entre los que se encuentra golub.cl, un vector de 0 y 1 correspondiente a los valores de “ALL” y “AML” respectivamente, para cada gen. Lo primero que se debe realizar es convertir este vector num´erico a factor, para luego seleccionar el gen a estudiar (en nuestro caso corresponde a la fila 1042 de la matriz de expresiones) y poder realizar el histograma.
Paquete MULTTEST en Bioconductor
multtest contiene funciones para realizar m´ultiples test de hip´otesis basadas en t´ecnicas de remuestreo y adem´as contiene los datos que vamos a trabajar > if(!(require("multtest"))) + {source("http://bioconductor.org/biocLite.R") + biocLite("multtest") + } > require(multtest) > data(golub) > gol.fac<-factor(golub.cl,levels=0:1, labels=c("ALL","AML")) > hist(golub[1042, gol.fac=="ALL"])
Figura 19
Histograma. Un Histograma es la representaci´on grafica de una variable en forma de barras, donde la superf´ıcie de cada barra es proporcional a la frecuencia de los valores representados.
Histogram of golub[1042, gol.fac == "ALL"]
golub[1042, gol.fac == "ALL"]
Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 2 4 6 8 10 12
La funci´on hist() en R divide nuestros datos en 5 intervalos de amplitud igual a 0.5. En el gr´afico anterior podemos observar como los valores estan m´as o menos sim´etricamente distribuidos alrededor de la media.
BoxPlot: El diagrama de caja se obtiene ordenando los n valores y calculando
los siguientes cuartiles:
Cuartil 25% (primer cuartil): valor del conjunto de datos para el que el 25% de los datos son menores que ´el.
Cuartil 75% (tercer cuartil): valor del conjunto de datos para el que el 75% de los datos son menores que ´el.
Este gr´afico consiste en un rect´angulo (caja) que comprende los 2 cuartiles anteri- ores de cuyos lados (superior e inferior) se derivan dos segmentos respectivamente: uno hacia arriba y uno hacia abajo (llamados bigotes). Este rect´angulo est´a di- vidido en 2 a partir del valor medio de los datos. M´as all´a de los bigotes o brazos de la caja se hallan las observaciones at´ıpicas o extremas defindas como ls valores que superan 1.5 veces el rango intercuartil.
Para visualizar este gr´afico vamos a escoger un ejemplo bioinform´atico. Con la construcci´on de dos diagramas de caja para la expresi´on del gen CCND3 Cyclin D3, podemos tener una idea de la distribuci´on de ALL y AML.
> boxplot(golub[1042,] ~ gol.fac)
Figura 20
Boxplot. Un Boxplot o diagrama de caja es un gr´afico en forma de caja que se crea a partir de los cuartiles y que nos permite detectar valores extremos y ver la s´ımetria de una distribuci´on.
Como podemos observar por la posici´on de las cajas los valores de expresi´on g´enica para ALL son mayores que los de AML. Adem´as, dado que los dos recuadros alrededor de la mediana son m´as o menos igual de anchos, podemos decir que los datos est´an distribuidos razonablemente de forma sim´etrica alrededor de la mediana.
Figura 20. Boxplot ALL AML −0.5 0.0 0.5 1.0 1.5 2.0 2.5
3.2.4 Estad´ısticos descriptivos
Existen varias formas para describir la tendencia central, as´ı como la dispersi´on de los datos. En particular, la tendencia central puede ser descrita por la media o la mediana y la dispersi´on por la varianza, la desviaci´on est´andar y el rango intercuartilico o la desviaci´on absoluta media.
Medidas de tendencia central
Los estad´ısticos descriptivos de tendencia central m´as importantes son la media y la mediana. La media muestral de un conjunto de valores: x1. . . xn se define
como:
¯
x = 1n Pxi= 1n(x1+− − − − +xn)
La mediana se define como el segundo cuartil y se denota X0.5. Cuando los
datos se distribuyen sim´etricamente alrededor de la media entonces la media y la mediana son iguales. Como los valores extremos no influyen en el tama˜no de la mediana, es muy robusta frente a datos at´ıpicos. La robustez es importante en bioinform´atica porque los datos est´an frecuentemente contaminados por valores extremos (outliers).
El t´ermino robustez se utiliza en estad´ıstica para hacer referencia a ciertas carac- ter´ısticas deseables de los procesos estad´ısticos. Se dice que un proceso es robusto respecto de las desviaciones de los supuestos del modelo, cuando el proceso con- tin´ua funcionando bien, a´un cuando, en mayor o menor extensi´on, los supuestos no se mantienen. En el ejemplo siguiente veremos como se calculan los cuartiles de una muestra. Para calcular los valores exactos de los cuartiles podemos usar el c´odigo siguiente con una secuencia de 0.00 a 1.00 con intervalos equivalentes a 0.25 c´omo:
> pvec<-seq(0,1,0.25)
> quantile(golub[1042, gol.fac=="ALL"],pvec)
El primer cuartil esX0.25= 1.796, el segundoX0.50 = 1.928 y el terceroX0.75 =
2.179.
Medidas de dispersi´on
Las medidas m´as importantes de dispersi´on son la desviaci´on est´andar, el rango intercuart´ılico y la desviaci´on absoluta media. La desviaci´on est´andar es la ra´ız cuadrada de la varianza de la muestra, que se define como:
s2= 1 n− 1 X (xi− x)2= 1 n− 1[(x1− ¯x) 2 + ... + (xn− ¯x)2]
Por lo tanto, la varianza es el promedio de la diferencia al cuadrado entre los valores de datos y la media de la muestra. La desviaci´on est´andar de la muestra es la ra´ız cuadrada de la varianza y puede interpretarse como la distancia de los datos a la media. La varianza y la desviaci´on est´andar no son estad´ısticos robustos frente a datos at´ıpicos.
El rango intercuart´ılico se define como la diferencia entre el tercer y el primer cuartil, es decir,R = x0.75− x0.25.