Una de las primeras diferencias que nos hemos encontrado fue a nivel de diseño de las regiones a estudiar, la tecnología basada en Haloplex no tenía la posibilidad de colocar sondas en cualquier región del genoma como si ocurría con Sureselect.
Se estudiaron en paralelo 16 muestras con las tecnologías Haloplex y Sureselect para comparar los resultados. Fueron secuenciadas en un Hiseq2000 de Illumina. Solamente se analizaron las regiones en común que compartían ambos métodos de enriquecimiento; y para las variantes solamente las muestras pareadas que resultaron ser 9. Para la detección de las variantes fue utilizado el software Surecall de
Figura 36. Representación de las profundiadades medias de cada exón incluido en el panel a lo largo del genoma para los enriquecimientos de SureSelect y Haloplex
101 Agilent Technologies, Inc., ya que presentaba un algoritmo optimizado para el caso de Haloplex. Se cuantificaron la cobertura y la profundidad de las muestras.
En el caso de las muestras preparadas con Haloplex, la profundidad varió drásticamente en cada exón como se puede ver en la figura 37 (pagina anterior), donde se han representado las profundidades de los dos métodos de captura a lo largo de todo el genoma. La profundidad presentada por SureSelectXT fue más homogénea.
Los valores de profundidad media de Haloplex fueron de 235.8X, mientras que los valores de profundidad media de SureselectXT fueron de 325.5X.
Los coeficientes de variación de Haloplex y SureselectXT de las profundidades de la suma del total de las regiones donde se realizó el diseño, fueron respectivamente 0.87 y 0.32.
En cuanto a las regiones sin cobertura, las muestras procesadas por Haloplex representaron un 3% del total de las regiones, mientras que en las muestras procesadas por Sureselect, esta proporción fue menor del 1%.
La figura 37 muestra las diferencias de ambos métodos de captura a nivel del gen LMNA. Existen diferencias significativas en la profundidad que se obtiene por cada método. Haloplex presenta zonas de máxima profundidad de 6500X y regiones sin cubrir, mientras que con Sureselect no aparecieron zonas exónicas sin cobertura.
102 La máxima profundidad alcanzada en ese gen en muestras procesadas con Sureselect fue de 512X. En la figura 39, se puede observar la representación de las lecturas que alinean contra el gen FUS, que no está incluido en el diseño del panel. Al procesar las muestras con Sureselect, pueden apreciarse lecturas esparcidas a lo largo de este gen, generando lecturas fuera de la región de interés, lo que se denomina off target. Sin embargo, con Haloplex no se observaron lecturas cubriendo este gen. Estas lecturas en regiones inespecíficas hacen que el enriquecimiento mediante Sureselect no fuese tan alto como con Haloplex, presentando valores de enriquecimiento de 70% y 97% respectivamente.
Figura 38 Representación del off target generado por cada uno de los métodos utilizados. Las regiones off target aparecen como están marcadas en un rectángulo rojo correspondiente a la muestra de Sureselect, la muestra correspondiente a haloplex no presenta , marcada con un rectángulo azul no presenta off target.
En cuanto a las variantes encontradas mediante las dos técnicas, se puede observar una concordancia del 88.5%, los resultados pueden verse en la figura 40.
Figura 39. Comparación del número de variantes detectadas por cada método utilizado.
103 La metodología Sureselect consiguió detectar más variantes que Haloplex. Un ejemplo puede verse en la figura 41, donde se aprecia una variante A>G en una región de 35X de profundidad con un balance alélico de 43/57, mientras que en la muestra con Haloplex, esa variante no fue detectada.
Tras la revisión manual en el IGV se encontró que esa posición también contaba con una profundidad de 35X con la tecnología Haloplex, para la sustitución de A>G, pero en este caso, el balance alélico fue de 83/17, razón por la que el variant caller no pudo detectar la variante. Otra posible razón por la que esta variante en Haloplex haya pasado desapercibida fue porque presentaba un sesgo de cadena. En el IGV, las cadenas positivas se representan en rojo mientras que las cadenas negativas en azul. Las lecturas alinean contra cualquiera de las dos cadenas, pero algunos variant callers necesitan que las variantes estén presentes en las dos cadenas para poder ser llamadas. En este ejemplo son Sureselect la variante está presente en 6 lecturas alineadas contra la cadena positiva y en 14 alineadas contra la cadena negativa, en el caso de Haloplex solamente aparecen lecturas con la variante alineadas sobre la cadena positiva.
Figura 40 Diferente balance alélico entre los métodos
Otro ejemplo de discrepancias en la detección de variantes se puede ver en la figura 42. En este caso, se observó la presencia de dos cambios en la muestra preparada con Sureselect, mientras que la misma muestra procesada por Haloplex presentó un hueco en la cobertura con lo que no se pudieron detectar esas dos variantes en heterocigosis, produciendo dos falsos negativos. Además, Haloplex detectó una variante en heterocigosis (señalada en amarillo), en un porcentaje cercano al 50% que no fue detectada
104 por Sureselect. En esa variante, se alcanzó una profundidad de 439X para esa posición y solamente aparecía el cambio de A>C en una única lectura, lo cual indica un error por alguno de los dos métodos.
Figura 41. Diferencias en la coberturas y falsos negativos
En otro caso, se observó una inserción en la muestra procedente de Haloplex en un total de 214 lecturas, donde la profundidad total fue de 637X, esta inserción no fue detectada por Sureselect (figura 43).
Figura 42. Error de Inserción de una G en Haloplex. No se aprecia en la ilustración mostrada en IGV pero si se muestra en el cuadro de texto asociado al evento.
105 En la figura 44 se muestra el mismo caso anterior, pero la gráfica corresponde únicamente a los datos obtenidos por procesamiento mediante Haloplex. Las fechas negras y rojas hacen referencia al par de lecturas generado dentro de la secuenciación en formato pair end, en donde cada fragmento de ADN es secuenciado en los dos sentidos, correspondiendo a la misma única molécula de ADN. En este caso, las flechas negras señalan a una molécula de ADN y las rojas a otra. La región de la inserción, que aparece resaltada por una línea de coloración morada, presenta un solapamiento entre las dos lecturas de la misma molécula. Sin embargo, la inserción solamente se detectó en la cadena positiva, lo que sugiere un error de secuenciación.
106
Errores relacionados con la técnica de secuenciación.
Adicionalmente, durante la realización del presente trabajo se encontraron numerosos errores relacionados con la secuenciación de illumina que se resumen en la figura 45.
Figura 44. Resumen errores illumina En el punto (1) se observa un error aleatorio, solamente aparece en una única lectura. En el punto (2), se aprecia un error aleatorio asociado a una región rica en homopolímeros tipo C, en este caso los errores aparecen debido a la baja complejidad de la región. Por último, en el punto (3), aparece un error sistemático debido a problemas en el phasing. Nótese que solamente aparece la lectura en base G en un único sentido (indicado por las flechas negras acompañando a las lecturas), como resultado podemos llegar a la falsa interpretación de un heterocigoto.
La figura 46 muestra el error de lectura GGC de plataformas illumina, la flecha azul indica el sentido de la secuenciación , en este el secuenciador leyó la secuencia GGC, las lectura en azul correspondientes a la cadena negativa presenta este error el 17% , 2% y 16% pero todos esos errores solamente estaban presentes en la cadena negativa, en la figura 47 se representa la misma región pero alineada sobre la cadena positiva en la que el sentido de la lectura es CGG y no se detecta ningún error.
107 Figura 45 Error GGC en tres muestras independientes.
108
SureselectXT y SureselectQXT
Se estudiaron 13 muestras pareadas entre los dos métodos de preparación de librerías XT y QXT, se utilizaron las mismas sondas de captura. Se secuenciaron en un Hiseq 1500 de Illumina. Se calculó la cobertura y profundidad de las 13 muestras pareadas y se detectaron las variantes. Los valores de cobertura media se pueden ver en la figura 13. El grado de enriquecimiento que se obtuvo en estas preparaciones fue del 70% en el caso de XT, frente al 35% para el caso de QXT. El grado de cobertura fue de un 99,9% para XT y de un 99,7% para QXT. El porcentaje de regiones cubiertas por encima de 50X fue de 99,7% para XT y 87% para QXT.
En cuanto a las variantes detectadas por cada sistema de preparación, también se encontraron diferencias, aunque es este caso fueron menores a las reportadas anteriormente. En este experimento la concordancia de variantes detectadas fue superior al 98% (figura 48).
Figura 47. Representación mediante diagrama de cajas de la profundidad de las muestras preparadas con QXT y XT. En el eje de Abscisas se representa la profundidad media para un total de 13 muestras.
La distribución de variantes detectadas por cada metodología puede consultarse en la figura 49.
Figura 48. Total de variantes reportadas por ambas métodos
109 Las discrepancias entre ambos sistemas, correspondieron a errores presentes que se encontraron en regiones de baja profundidad o bien en regiones de baja complejidad genómica como queda plasmado en las figuras 50 y 51. Estas discrepancias se debieron a la falta de profundidad en algunas regiones y a la región del genoma en donde se encontraban las variantes, ricas en homopolimeros. En la figura 14, se puede apreciar cómo fue detectada una variante de T>G a una profundidad de 291X por la metodología XT, mientras que por QXT esta variante no fue detectada a una profundidad de 49X.
Sin embargo, una vez realizada la inspección manual en el IGV puede verse que existen tres lecturas que la soportan (figura 50). Una de las dificultades para llamar esta variante en ambas preparaciones fue que se encontraba en una zona con un homopolímero de T muy extenso.
Figura 49. Error en la llamada de una variante debido a una región de baja complejidad y de profundidad baja. Se puede observar que aparecen 3 lecturas en base G en QXT a una profundidad de 49X, mientras que con XT aparecen de manera estadísticamente más fiable cuando se aumenta la profundidad
Por otro lado, en la figura 51 se muestra una variante no detectada por la química QXT debido a una baja profundidad de 1X, mientras que en XT la profundidad alcanzó un 50X y esto permitió que se detectara el cambio de T>G en heterocigosis.
110 Figura 50. Error en la llamada de una variante a profundidad de 1X en preparación con QXT, que queda resuelto cuando se prepara la muestra con el sistema XT
En relación a las variantes únicas detectadas por cada preparación, se determinó que tenían diferentes patrones de sustituciones. Mientras que el sistema XT mostraba una preferencia por la sustitución G>A, QXT mostró preferencia por A>G, C>A, T>G (figura 52). Este hecho pudo deberse a errores en el patrón de corte mediado por la trasnposasa, tal y como se argumentará más adelante.
Figura 51. Distribución del patrón de sustitución de las variantes detectadas en cada metodología de preparación de librerías. En el eje de abscisas se observa el número de veces x100 que aparece cada tipo de sustitución
111 Otro punto de discrepancia apareció en una región que no se cubría en todas las muestras procesadas por QXT, mientras que si estaba cubierta en las muestras procesadas por XT. Dicha región correspondía con las coordenadas chr6:123851633-123851743, que formaban parte de una región exónica del gen TRDN. En la figura 53 puede apreciarse el alineamiento de esta región y la ausencia de profundidad en las muestras analizadas con QXT (enmarcado en negro). La muestra analizada con XT aparece en el margen superior. El resto de muestras, que aparecen enmarcadas en rojo, son los alineamientos correspondientes al procesamiento QXT. La última muestra se corresponde con un exoma procesado con QXT en el cual el fichero del alineamiento ha sido cedido por el fabricante.
La profundidad media de esta región es de 90X para XT mientras que en el exón adyacente es de 235X En el caso de QXT la región problema no está cubierta y la media del exón adyacente es de 62X
112
Exoma vs panel personalizado.
Se estudiaron 16 exomas v5 de Agilent tech., preparados con la química XT y se secuenciaron en 4 líneas de secuenciación en un secuenciador Hiseq 2000 de Illumina.
Se realizó una comparación entre los datos de cobertura y profundidad de determinadas regiones del exón 26 del gen APOB presentes en el diseño de los exomas anteriormente mencionados (figura 18), frente a muestras de nuestro panel personalizado que presentaban también dichas regiones en su diseño. En los exomas se obtuvieron unas profundidades medias de 113X con una desviación estándar de 59,2. En ese sentido, para reducir el sesgo de las métricas, se utilizaron muestras analizadas con los paneles personalizados que tuvieran una media de profundidad similar 122X , con una desviación típica de 37,5. Se calculó el coeficiente de variación, que fue 0,52 para los exomas y de 0,30 para el panel personalizado. Adicionalmente, en la figura 54 puede apreciarse también como todo el exón 26 del gen APOB está cubierto, sin embargo, su profundidad presentó fluctuaciones a lo largo del gen en diferentes puntos del mismo. Cabe destacar que este exón tiene una longitud aproximada de 7,6 kb, la cual se considera extensa y que puede originar problemas de uniformidad.
113 Figura 53 Variación de la profundidad a lo largo del exón 26 de APOB, el recuadro rojo muestra los datos de exomas, el panel customizado se muestra en azúl.
En la siguiente figura 55, podemos observar que se encontraron regiones de estudio que no estaban cubiertas o con una profundidad insuficiente en el exoma (rectángulo rojo), como es el caso de regiones en los genes PKP2 y KCNQ1, que si presentaba buena profundidad en el panel personalizado (rectángulo azul).
114 Figura 54 Resultados de los exomas frente al exón 2 del gen PKP2 y el exón 1 de KCNQ1, ambos con profundidad
115
Comparación entre secuenciadores
Hiscan vs Hiseq
Se realizó una preparación de 16 muestras mediante SureSelectXT y se cargaron en dos líneas del Hiscan y en dos líneas del Hiseq.
Para calcular los errores producidos por los secuenciadores se utilizó la herramienta informática ErrorPerCicle contenida en el paquete GATK. Los datos obtenidos se pueden observar en forma de gráfica en la figura 56.
Se calcularon las correlaciones de Pearson entre los valores de qual y la tasa de error dando resultados por encima del 0.97 para las 4 líneas.
figura 55 En la parte de la izquierda se muestra los errores producidos por el Hiscan, en la de la derecha, los producidos por el Hiseq. El eje X muestra en primer lugar el valor de qual asignado, en el eje Y, el número de ciclo secuenciado.
116 Se calcularon las correlaciones de Pearson entre los valores de qual y el tasa de errordando resultados por encima del 0.97 para las 4 líneassecuenciadas.
Puede observarse que los errores tienen una correlación positiva con la calidad (qual) que da el secuenciador, mayor qual, menor número de errores. También se calculó la reproducibilidad de datos entre líneas, mediante la ya mencionada correlación de Pearson. Se observó un 93% de errores detectados en las mismas posiciones en el Hiscan, mientras que descendió hasta el 51% en el caso del Hiseq, lo que indica que los errores en el Hiseq fueron más aleatorios.
En cuanto al número de lecturas generadas por el Hiscan en cada línea, ronda los 80 millones de lecturas, obteniéndose más del doble del valor en el Hiseq, 180 millones. Se procedió al cálculo de errores presentes en cada lectura producida.
La tasa de error Hiseq, fue superior a la del Hiscan, el 50% de las lecturas producidas por el Hiseq en esta carrera presentó al menos un mismatch frente a la referencia, para el Hiscan el 90% de las lecturas no presentaban ningún mismatch (figura 57).
Figura 56. Gráfica del porcentaje de error en las lecturas. En eje de abscisas, se indica el porcentaje de error, mientras que el eje de ordenadas, se muestra el número de errores dentro de la misma lectura.
117 Los datos de profundidad media de las muestras fueron de 151X para el Hiscan, manteniendo el 98% de las regiones cubiertas, mientras que para el Hiseq fueron de 425X y más del 99,9% estaba cubierto. Los datos de detección de variantes obtenidos por el Hiscan se eliminaron del estudio por su baja calidad de cobertura, centrando el análisis únicamente en los datos obtenidos en las dos líneas del Hiseq. Así pues, se detectaron un total de 33216 variantes, de las cuales 31312 fueron detectadas en común por las dos líneas ya que cada línea había detectado por un lado 1216 variantes exclusivas de esa línea y 256 de otra, haciendo que el porcentaje de discrepancia fuera del 5,73%.
Debido a estas diferencias, se calculó la correlación en la profundidad de cada una de las muestras, dando como resultado una correlación del 98% entre los duplicados de cada muestra (figura 58.a).
Se calculó la correlación entre el número de variantes y el número de lecturas resultando un coeficiente de Pearson del 41% (figura 58.b).
Se observó que un 24,5% de las lecturas producidas en ambas líneas eran diferentes, lo que sugirió que no procedían de la misma molécula. Posteriormente, se procedió a la detección de las variantes de nuevo y se concretó la pérdida de las variantes individuales encontradas en cada duplicado. No obstante, se obtuvieron 341 nuevas variantes, las cuales no habían sido reportadas anteriormente, todas ellas en regiones intrónicas, lo cual puede ser indicativo de errores vinculados a la secuenciación.
a b
Figura 57. (a) correlación existente entre la profundidad encontrada en una muestra por duplicado para las zonas a estudiar. (b) Número de variantes detectadas en función del número de lecturas totales.
118
Miseq vs Hiseq vs Nextseq
Se prepararon 4 muestras por triplicado y se secuenciaron en 3 secuenciadores distintos. Al mismo tiempo, se comprobó que la cobertura y la profundidad fuera homogénea en los 4 triplicados de muestras. Se detectaron un total de 9520 variantes, presentando unos resultados en común de solo el 29,5% de todas las variantes en las 3 plataformas. Sin embargo, una vez que se eliminaron las regiones de profundidad inferior a 10x, el porcentaje de variantes que compartían aumento a 66,2%.
Por último, se estudiaron un total de 333 variantes exónicas y se encontró un 83,8% en común (figura 24). Un dato significativo fue que empleando como secuenciador el Nextseq, se observó un mayor número de variantes no detectadas por los otros secuenciadores. Este hecho será discutido en mayor profundidad en sucesivos apartados.
En la figura 60 se muestran los datos correspondientes del alineamiento en el IGV procedente de una misma muestra y los distintos resultados de secuenciación en función de la plataforma empleada. De este modo, se puede apreciar una variante en el gen MYH7 solamente en el alineamiento correspondiente al resultado arrojado por el Nextseq, en el que presenta una profundidad de 304X y el cambio de G>C aparece 75 veces, 74 sobre la cadena negativa y 1 sobre la cadena positiva. En las muestras del Hiseq y del Miseq, este resultado no aparece.