Validation and population analysis of inversions between independently assembled human genomes
SUPPORTING INFORMATION
4.2 La repetitividad del genoma humano como fuente de errores
El proceso de ensamblaje de un genoma tiene como objetivo lograr la secuencia más completa y fiable posible y para ello se han de ordenar y orientar las secuencias formadas por fragmentos secuenciados. En genomas con poca cantidad de secuencia repetitiva es más fácil ponerles orden que en genomas con un porcentaje alto como es el genoma humano, donde se estima que el 50% de la secuencia es repetitiva. En estas regiones es más difícil conocer el orden de los fragmentos debido a que no existe un alineamiento único, y las convierte en susceptibles a generar errores de ensamblaje [Bailey et al. 2001]. La dificultad aumenta cuando se trata de duplicaciones segmentales, por su tamaño superior a 1 Kb y su alta similitud. En uno de los primeros estudios que se realizaron con la secuencia borrador del genoma humano, se alineó la secuencia consigo misma para detectar este tipo de repeticiones y se estableció que representan el 5% del genoma, cifra muy superior a la esperada en aquel momento. También se demostró que las secuencias duplicadas están sobrerrepresentadas en los contigs sin ordenar o asignar [Bailey et al. 2001]. Se analizó la cobertura de estas regiones en el genoma mediante ensayos de FISH sobre los cromosomas, en los que se usaron BACs que contienen duplicaciones intercromosómicas y además se realizó un búsqueda por BLAST de las regiones duplicadas en sus cromosomas correspondientes en el genoma de Referencia. Los resultados mostraron que sólo el 47% de los cromosomas con señal en el experimento de FISH tenía la secuencia de la duplicación intracromosómica correspondiente en el genoma de Referencia [Bailey et al. 2001]. Se demostró así que se trataba de regiones mal ensambladas, mal asignadas o con una cobertura baja. En otro estudio realizado sobre el ensamblaje público NCBI Build 30 del genoma humano, se detectaron mediante BLAST 38.9 Mb de secuencia involucrada en errores de ensamblaje, correspondiente a un 1.28% del genoma [Cheung et al. 2003]. Por lo tanto, teniendo en cuenta ambos estudios, no sólo se demostró que el genoma de Referencia contiene errores de ensamblaje, sino que además representan un porcentaje importante de la secuencia.
Evidentemente se está trabajando para corregirlos y tener un genoma de Referencia de la máxima calid ad p o sib le. El org an ismo en cargad o d e esta tarea es el Co n so rcio d el
Genoma de Referencia, GRC
publicación del genoma humano se han generado 38 versiones incluyendo el primer ensamblaje y una parte de estos errores han sido corregidos, pero cabe esperar que algunas regiones donde las duplicaciones segmentales son muy grandes y similares y la complejidad de las repeticiones es alta, no puedan ser resueltas al menos por ahora. En ese sentido y como muestran nuestros resultados, los estudios de detección de variantes son una manera de identificar estos errores ya que aparecen como variantes estructurales (falsos positivos). Por ejemplo las técnicas como PEM que en algunos estudios se usan para analizar múltiples genomas, los identifican porque se muestran como variantes estructurales en todos los individuos excepto el genoma de Referencia. Además aunque el número de errores de ensamblaje en el genoma humano no sea muy alto, en este tipo de estudios pueden representar una parte importante de las variantes estructurales detectadas. Todos estos datos indican lo que ya sabemos, que es primordial que el genoma de Referencia de cualquier especie tenga la máxima calidad posible, ya que de él dependen todos los estudios de genómica comparativa tanto interespecíficos como intraespecíficos y las conclusiones a las que se llegan con ellos. En ese sentido es común pensar en el genoma humano de Referencia como un proyecto terminado, como una secuencia terminada al 100%. Por el contrario, nuestro estudio confirma que más de una década después de su publicación los errores de ensamblaje relacionados con las duplicaciones segmentales siguen presentes y están detrás de un porcentaje importante de falsos positivos en los estudios de genómica comparada.
En nuestro estudio se realizó un esfuerzo muy importante por colaborar con la mejora del genoma de referencia. Al tratarse de un análisis de las inversiones entre HuRef y el genoma de Referencia, sólo pudimos detectar los errores de ensamblaje en ambos genomas que conllevan falsos positivos, es decir, las secuencias en orientación errónea que se han detectado como inversiones. Por lo tanto, es posible que haya una parte de errores de ensamblaje comunes en ambos genomas que no hemos detectado y que consideramos falsos negativos. Además, estos errores no se pudieron distinguir de las inversiones reales mediante un análisis manual de la secuencia de los puntos de rotura, por lo que fueron necesarios experimentos de PCR sobre el ADN. En el caso del genoma de Referencia, este punto requirió un esfuerzo extra respecto a cualquier validación experimental de una inversión polimórfica. El genoma de Referencia se secuenció a partir de clones de librerías genómicas de distintos individuos de identidad desconocida, por lo que no es posible obtener la muestra de ADN. A cambio se obtuvieron los BACs de la secuenciación para cada región potencialmente errónea del genoma, lo que es complicado ya que se encuentran repartidos entre los diferentes centros de secuenciación que participaron en el macro-proyecto. Además hay que comentar que para la demostración de un error de ensamblaje ha de usarse el mismo BAC del mismo individuo que se usó en el momento de la secuenciación, ya que otro BAC de la misma zona generado a partir de la muestra de ADN de otro individuo (o incluso del mismo que pudiese provenir del otro alelo) no resolvería el problema. Esta es la única manera de asegurarse que no se trata de
una inversión a una frecuencia muy baja y que es realmente un error en el ensamblaje. En algunos casos, el GRC ha substituido las regiones con una orientación errónea por la secuencia proveniente de un BAC diferente pero eso no soluciona el problema, simplemente substituye la secuencia por la de un BAC que puede no representar el mismo alelo provenga o no el BAC del mismo individuo.
Los errores en ambos genomas se detectaron a partir de la utilización de la información de los fósmidos usados por Kidd y colaboradores en el año 2008 [Kidd et al. 2008] para detectar variación estructural en 9 individuos mediante PEM (8 individuos más 1 extra); en los casos en que todos los individuos presentaban solamente fósmidos discordantes en la región putativamente invertida, se clasificaron las regiones como potencialmente erróneas en el genoma de Referencia. Se realizaron experimentos de PCR sobre las muestras de ADN correspondientes a dichos individuos para comprobar la orientación de la secuencia y en el caso de confirmarse que todos tenían una orientación invertida respecto al genoma de Referencia se procedió a la búsqueda y adquisición de los BACs correspondientes. El experimento final de PCR sobre el ADN del BAC nos desveló la existencia o no de los errores en la orientación del genoma de Referencia y de esta manera se demostraron 25 errores de ensamblaje en la versión NCBI36/hg18 del genoma humano. Para estas regiones se estableció la orientación real del BAC y se informó al GRC, que está en el proceso de cambiar la orientación de estas regiones en el nuevo ensamblaje del genoma. Hay que comentar que los errores que hemos detectado coinciden con la gran mayoría de errores detectados por PEM en distintos estudios.
Hay que tener en cuenta que la secuencia del actual genoma de Referencia es el resultado del proyecto de secuenciación en el que se han invertido más recursos hasta el momento y de una estrategia basada en mapas físicos de marcadores moleculares conocidos, pero evidentemente no todos los genomas secuenciados tienen la misma calidad, y este tipo de errores son comunes a todos los genomas ensamblados. Por lo tanto, es de esperar que a menor calidad del ensamblaje y con estrategias de ensamblaje menos precisas mayor sea el contenido de errores. En concreto la estrategia de secuenciación shotgun tiene más dificultades con las zonas duplicadas, debido a que se fragmenta todo el genoma sin tener referencias sobre el orden de los fragmentos, a diferencia de la estrategia basada en mapas físicos. Por este motivo se elimina una parte de las secuencias duplicadas para permitir el ensamblado de los fragmentos y esto afecta a la secuencia que contiene menos duplicaciones segmentales. En un estudio sobre la estrategia de secuenciación shotgun se demostró que las duplicaciones grandes de más de 15 Kb y de una identidad mayor del 97% no se resuelven bien en este tipo de ensamblajes [She et al. 2004]. Las duplicaciones pueden contener genes duplicados que se pierden y con ellos una parte de la variación genética. En el caso específico de HuRef se cuantificó esta pérdida de regiones duplicadas en un 42.8% de las duplicaciones segmentales anotadas en el ensamblaje HG18 del genoma de Referencia [Levy et al. 2007]; aunque una parte de las diferencias en contenido de duplicaciones corresponde a la variación entre individuos que se ha
estimado alrededor del 25% en este tipo de regiones. Todo esto se resume a nivel global en una visión simplificada de los genomas secuenciados por shotgun, especialmente en las regiones pericentroméricas y subteloméricas que son zonas con abundantes duplicaciones segmentales [She et al. 2004].
En nuestro estudio se demostraron 5 errores en el ensamblaje de HuRef siguiendo el mismo procedimiento que con los errores en el genoma de Referencia, aunque con la gran diferencia que HuRef proviene de un único individuo, J. Craig Venter, del que se puede obtener la muestra de su ADN. En todos los casos se relacionan con la presencia de elementos repetitivos y gaps en la región, que explicarían una mala orientación del fragmento. El hecho de que se hayan detectado 5 errores en HuRef frente a los 25 en el genoma humano de Referencia refleja la baja representación de las regiones más difíciles de ensamblar en los genomas secuenciados por shotgun. Evidentemente no debe ser confundido con una mayor calidad de ensamblaje de HuRef.
En conjunto un tercio de las putativas inversiones son falsos positivos por errores en el ensamblaje de ambos genomas. Es una evidencia directa de que la calidad de los genomas ensamblados afecta a los estudios comparados. Además, el hecho de que las zonas duplicadas sean más proclives a contener errores afecta a los resultados de la comparación genómica, lo cual no implica que la detección de variantes estructurales por comparación genómica no sea un método preciso.