Materiales y Métodos - Dar una interpretación funcional: test de asociación funcional con la je

III. Dar una interpretación funcional: test de asociación funcional con la jerarquía de estados celulares

5. Materiales y Métodos

Paquetes / librerías de R utilizadas

La versión de R utilizada para realizar los experimentos ha sido la 3.0.2.

Todos los paquetes de R son públicos y pueden descargarse desde CRAN, excepto sincell que es suministrado junto a este documento y pronto será público a través de Bioconductor: igraph 0.7.1 entropy 1.2.0 scatterplot3d 0.3-35 MASS 7.3-33 TSP 1.0-9 ggplot2 1.0.0 reshape 1.4 fields 7.1 spam 0.41-0 grid (R-base) maps 2.3-7 proxy 0.4-12 parallel (R-base) fastICA 1.2-0

32 Métodos de reducción dimensional:

a) PCA

El análisis de componentes principales es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos. Intuitivamente la técnica sirve para hallar las causas de la variabilidad de un conjunto de datos y ordenarlas por importancia. Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. El PCA comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

b) MDS

El escalamiento multidimensional es un medio de visualizar el nivel de similitud de los casos individuales de un conjunto de datos. Se refiere a un conjunto de técnicas de ordenación relacionados utilizados en la visualización de la información, en particular, para visualizar la información contenida en una matriz de distancia, por lo que puede usarse para reducir la dimensionalidad de los datos de los cuales proviene dicha matriz. En algoritmo MDS tiene como objetivo colocar cada objeto en el espacio N-dimensional de tal manera que las distancias entre objetos se conservan, así como sea posible. Cada objeto se le asigna coordenadas en cada uno de los N dimensiones. El número de dimensiones de una parcela MDS N puede ser superior a 2 y se especifica a priori. La elección de N = 2 optimiza las ubicaciones de los objetos de un gráfico de dispersión bidimensional.

c) t-SNE

t-Distributed Stochastic Neighbor Embedding es una técnica para la reducción de dimensionalidad que es especialmente adecuado para la visualización de conjuntos de datos de alta dimensión. La técnica se puede implementar a través de aproximaciones Barnes- Hut, lo que le permite ser aplicado en grandes conjuntos de datos del mundo real.

d) ICA

El Análisis del Componente Independiente es un método computacional que sirve para separar una señal multivariante en subcomponentes aditivos suponiendo que la señal de origen tiene una independencia estadística y es no-Gausiana.

Distancias: a) Euclidean

La distancia euclidiana o euclídea es la distancia "ordinaria" (que se mediría con una regla) entre dos puntos de un espacio euclídeo, la cual se deduce a partir del teorema de Pitágoras.

33 b) Mutual Information por bines

La información mutua o transinformación de dos variables aleatorias es una cantidad que mide la dependencia mutua de las dos variables, es decir, mide la reducción de la incertidumbre (entropía) de una variable aleatoria, X, debido al conocimiento del valor de otra variable aleatoria Y. En este caso particular, los datos se discretizan previamente en bines y se calcula la dependencia de las variables sobre estos bines.

c) Dissimilarities

La medida de disimilitud viene definida como una transformación lineal de la correlación (Pearson o Spearman) entre las variables que le otorgan las características matemáticas de distancia. Esta medida indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variable. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra.

Datos de Monocle

Los datos usados pertenecientes al paper de monocle son publicamente accesibles a través de GEO: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52529

Datos de RNA-seq HIV

Los datos de los dos donantes secuenciados por single cell RNA-seq no son públicos y no pueden ser facilitados ya que actualmente están siendo analizados por el equipo de Amalio Telenti.

6. Bibliografía

1. Wang Z, Gerstein Z, Snyder M (2009) RNA-Seq: a revolutionary tool for transcriptomics. Nature Genetics 10, 57-63. doi:10.1038/nrg2484.

2. Tsioris K, Torres AJ, Douce TB, Love JC (2014) A New Toolbox for Assessing Single Cells. Annu. Rev. Chem. Biomol.. 5, 455–77. doi:10.1146/annurev-chembioeng-060713- 035958

3. Brennecke P, Anders S, Kim JK, Kołodziejczyk AA, Zhang X, et al. (2013) Accounting for technical noise in single-cell RNA-seq experiments. Nature Methods 10, 1093–1095. doi:10.1038/nmeth.2645.

4. Rand U, Rinas M, Schwerk J, Nöhren G, Linnes M, et al. (2012) Multi‐layered stochasticity and paracrine signal propagation shape the type‐I interferon response. Molecular Systems Biology 8, 584. doi: 10.1038/msb.2012.17

5. Vogel C, Marcotte EM (2012) Insights into the regulation of protein abundance from proteomic and transcriptomic analyses. Nature reviews Genetics 13(4):227-32. doi:10.1038/nrg3185.

6. Fluidigm C1™ Single-Cell Auto Prep System:

http://www.fluidigm.com/c1-single-cell-auto-prep-system.html

7. Illumina HiSeq Performance Parameters:

http://systems.illumina.com/systems/hiseq_2500_1500/performance_specifications.ilmn

8. Qiu P, Simonds EF, Bendall SC, Gibbs KD Jr, Bruggner RV, et al. (2011) Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nat Biotechnol 29: 886–891. doi:10.1038/nbt.1991.

9. Amir ED, Davis KL, Tadmor MD, Simonds EF, Levine JH, et al. (2013) viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nat Biotechnol 31: 545–552. doi:10.1038/nbt.2594.

10. Roweis ST, Saul LK (2000) Nonlinear dimensionality reduction by locally linear embedding. Science 290: 2323–2326. doi:10.1126/science.290.5500.2323.

11. Bendall SC, Davis KL, Amir ED, Tadmor MD, Simonds EF, et al. (2014) Single-Cell Trajectory Detection Uncovers Progression and Regulatory Coordination in Human B Cell Development. Cell 157: 714-725. doi:10.1016/j.cell.2014.04.005.

12. Jaitin DA, Kenigsberg E, Keren-Shaul H, Elefant N, Paul F, et al. (2014) Massively Parallel Single-Cell RNA-Seq for Marker-Free Decomposition into Cell Types. Science 343: 776-779. doi:10.1126/science.1247951.

13. Trapnell C, Cacchiarelli D, Grimsby J, Pokharel P, Li S, et al.(2014) The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nature Biotechnology 32: 381-356. doi:10.1038/nbt.2859.

14. Kaski S, Peltonen J (2011) Dimensionality Reduction for Data Visualization. IEEE Signal Processing Magazine 100-104. doi: 10.1109/MSP.2010.940003

15. Shalek AK, Satija R, Shuga J, Trombetta JJ, Gennert D, et al. (2014) Single-cell RNA- seq reveals dynamic paracrine control of cellular variation. Nature aop.

doi:10.1038/nature13437

16. Fraley C, Raftery AE (1999) MCLUST: Software for Model-Based Cluster Analysis. Journal of Classification, Volume 16, Issue 2 , 297-306. doi: 10.1007/s003579900058 17. Kanehisa M, Goto S (1999) KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucl. Acids Res. 28 : 27-30. doi: 10.1093/nar/28.1.27

18. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, et al. (2000) Gene Ontology: tool for the unification of biology. Nature Genetics 25, 25 – 29. doi:10.1038/75556 19. Anders S, Huber W (2010) Differential expression analysis for sequence count data. Genome Biology 2010, 11:R106. doi:10.1186/gb-2010-11-10-r106.

In document Desarrollo de un método de reducción dimensional no lineal y clustering para la visualización e interpretación de single cell RNA-seq data (página 32-36)