Secuenciación de nanobolas de ADN - DNA nanoball sequencing

Flujo de trabajo para la secuenciación de nanobolas de ADN

La secuenciación de nanobolas de ADN es una tecnología de secuenciación de alto rendimiento que se utiliza para determinar la secuencia genómica completa de un organismo. El método utiliza la replicación en círculo rodante para amplificar pequeños fragmentos de ADN genómico en nanobolas de ADN . Los nucleótidos fluorescentes se unen a nucleótidos complementarios y luego se polimerizan para anclar secuencias unidas a secuencias conocidas en el molde de ADN. El orden de las bases se determina mediante la fluorescencia de los nucleótidos unidos. Este método de secuenciación de ADN permite secuenciar un gran número de nanobolas de ADN por ejecución a un costo de reactivo más bajo en comparación con otras plataformas de secuenciación de próxima generación . Sin embargo, una limitación de este método es que genera solo secuencias cortas de ADN, lo que presenta desafíos para mapear sus lecturas en un genoma de referencia . Después de comprar Complete Genomics, el Beijing Genomics Institute (BGI) refinó la secuenciación de nanobolas de ADN para secuenciar muestras de nucleótidos en su propia plataforma.

Procedimiento

La secuenciación de ADN Nanoball implica aislar el ADN que se va a secuenciar, dividirlo en pequeños fragmentos de 100 - 350 pares de bases (pb), ligar las secuencias adaptadoras a los fragmentos y circularizar los fragmentos. Los fragmentos circulares se copian mediante la replicación del círculo rodante, lo que da como resultado muchas copias monocatenarias de cada fragmento. Las copias de ADN se concatenan de la cabeza a la cola en una hebra larga y se compactan en una nanoesfera de ADN. Las nanobolas se adsorben luego en una celda de flujo de secuenciación. El color de la fluorescencia en cada posición interrogada se registra a través de una cámara de alta resolución. La bioinformática se utiliza para analizar los datos de fluorescencia y realizar una llamada de base, y para mapear o cuantificar las lecturas de extremo único o emparejado de 50 pb, 100 pb o 150 pb.

Aislamiento, fragmentación y captura de tamaño de ADN

Las células se lisan y el ADN se extrae del lisado celular . El ADN de alto peso molecular, a menudo de varios pares de megabase de longitud, se fragmenta mediante métodos físicos o enzimáticos para romper las cadenas dobles de ADN a intervalos aleatorios. El mapeo bioinformático de las lecturas de secuenciación es más eficaz cuando el ADN de la muestra contiene un intervalo de longitud estrecho. Para la secuenciación de ARN pequeño , la selección de las longitudes ideales de los fragmentos para la secuenciación se realiza mediante electroforesis en gel ; para la secuenciación de fragmentos más grandes, los fragmentos de ADN se separan mediante selección de tamaño basada en perlas.

Adjuntar secuencias de adaptadores

Las secuencias de ADN del adaptador deben unirse al fragmento de ADN desconocido para que los segmentos de ADN con secuencias conocidas flanqueen el ADN desconocido. En la primera ronda de ligación del adaptador , los adaptadores derecho (Ad153_right) e izquierdo (Ad153_left) se unen a los flancos derecho e izquierdo del ADN fragmentado, y el ADN se amplifica mediante PCR . Luego, un oligo de férula se hibrida con los extremos de los fragmentos que se ligan para formar un círculo. Se agrega una exonucleasa para eliminar todos los productos de ADN lineales monocatenarios y bicatenarios restantes. El resultado es una plantilla de ADN circular completa.

Replicación del círculo rodante

Una vez que se ha generado una plantilla de ADN circular monocatenaria, que contiene una muestra de ADN que está ligada a dos secuencias adaptadoras únicas, la secuencia completa se amplifica en una larga cadena de ADN. Esto se logra mediante la replicación en círculo rodante con la ADN polimerasa Phi 29 que se une y replica la plantilla de ADN. La hebra recién sintetizada se libera de la plantilla circular, lo que da como resultado un ADN monocatenario largo que comprende varias copias de la plantilla circular de la cabeza a la cola. La nanopartícula resultante se autoensambla en una bola compacta de ADN de aproximadamente 300 nanómetros (nm) de diámetro. Las nanobolas permanecen separadas unas de otras porque están cargadas negativamente y se repelen de forma natural, lo que reduce cualquier enredo entre las diferentes longitudes de ADN monocatenario.

Creación y adsorción de nanoesferas de ADN en la celda de flujo de matriz estampada
Creación y adsorción de nanoesferas de ADN en la celda de flujo de matriz estampada

Matriz con patrón de nanobolas de ADN

Para obtener la secuencia de ADN, las nanobolas de ADN se unen a una celda de flujo de matriz con patrón. La celda de flujo es una oblea de silicio recubierta con dióxido de silicio , titanio , hexametildisilazano (HMDS) y un material fotorresistente . Las nanobolas de ADN se agregan a la celda de flujo y se unen selectivamente al aminosilano cargado positivamente en un patrón altamente ordenado, lo que permite secuenciar una densidad muy alta de nanobolas de ADN.

Imágenes

Después de cada paso de incorporación de nucleótidos de ADN, se obtienen imágenes de la celda de flujo para determinar qué base de nucleótidos se une a la nanoesfera de ADN. El fluoróforo se excita con un láser que excita longitudes de onda de luz específicas . La emisión de fluorescencia de cada nanobola de ADN se captura en una cámara CCD de alta resolución . Luego, la imagen se procesa para eliminar el ruido de fondo y evaluar la intensidad de cada punto. El color de cada nanobola de ADN corresponde a una base en la posición interrogativa y una computadora registra la información de la posición de la base.

Formato de secuencia de datos

Los datos generados a partir de las nanobolas de ADN están formateados como archivos con formato FASTQ estándar con bases contiguas (sin espacios). Estos archivos se pueden usar en cualquier canal de análisis de datos que esté configurado para leer archivos FASTQ de un solo extremo o de un extremo emparejado.

Por ejemplo:

Leer 1, de una ejecución final emparejada de 100 pb desde

 @CL100011513L1C001R013_126365/1
 CTAGGCAACTATAGGTCTCAGTTAAGTCAAATAAAATTCACATCAAATTTTTACTCCCACCATCCCAACACTTTCCTGCCTGGCATATGCCGTGTCTGCC
 +
 FFFFFFFFFFFGFGFFFFFF;FFFFFFFGFGFGFFFFFF;FFFFGFGFGFFEFFFFFEDGFDFF@FCFGFGCFFFFFEFFEGDFDFFFFFGDAFFEFGFF

Lectura correspondiente 2:

 @CL100011513L1C001R013_126365/2
 TGTCTACCATATTCTACATTCCACACTCGGTGAGGGAAGGTAGGCACATAAAGCAATGGCAGTACGGTGTAATACATGCTAATGTAGAGTAAGCACTCAG
 +
 3E9E<ADEBB:D>E?FD<<@EFE>>ECEF5CE:B6E:CEE?6B>B+@??31/FD:0?@:E9<3FE2/A:/8>9CB&=E<7:-+>;29:7+/5D9)?5F/:

Consejos de informática

Alineación del genoma de referencia

Los parámetros predeterminados para los alineadores populares son suficientes.

Leer nombres

En el archivo FASTQ creado por secuenciadores BGI / MGI utilizando nanobolas de ADN en una celda de flujo de matriz con patrón, los nombres leídos se ven así:

BGISEQ leer anatomía del nombre
Anatomía de un nombre de lectura de secuenciador BGI
MGISEQ leer nombre anatomía
Anatomía del nombre de lectura de un secuenciador MGI

BGISEQ-500: CL100025298L1C002R050_244547

MGISEQ-2000: V100006430L1C001R018613883

Los nombres de lectura se pueden analizar para extraer tres variables que describen la ubicación física de la lectura en la matriz con patrón: (1) mosaico / región, (2) coordenada x y (3) coordenada y. Tenga en cuenta que, debido al orden de estas variables, estos nombres leídos no pueden ser analizados de forma nativa por Picard MarkDuplicates para identificar duplicados ópticos. Sin embargo, como no hay ninguno en esta plataforma, esto no plantea ningún problema para el análisis de datos basado en Picard.

Duplicados

Debido a que las nanobolas de ADN permanecen confinadas en sus puntos en la matriz modelada, no hay duplicados ópticos con los que lidiar durante el análisis bioinformático de las lecturas de secuenciación. Se sugiere ejecutar Picard MarkDuplicates de la siguiente manera:

java -jar picard.jar MarkDuplicates I=input.bam O=marked_duplicates.bam M=marked_dup_metrics.txt READ_NAME_REGEX=null

Una prueba con nombres de lectura reformateados y compatibles con Picard demuestra la ausencia de esta clase de lectura duplicada:

Picard Mark Duplica los resultados de la prueba
Prueba de Picard MarkDuplicates variando el parámetro OPTICAL_DUPLICATE_PIXEL_DISTANCE

La lectura única marcada como un duplicado óptico es sin duda artefactual. En cualquier caso, el efecto sobre el tamaño estimado de la biblioteca es insignificante.

Ventajas

La tecnología de secuenciación de nanobolas de ADN ofrece algunas ventajas sobre otras plataformas de secuenciación. Una ventaja es la erradicación de duplicados ópticos. Las nanobolas de ADN permanecen en su lugar en la matriz estampada y no interfieren con las nanobolas vecinas.

Otra ventaja de la secuenciación de nanobolas de ADN incluye el uso de ADN polimerasa Phi 29 de alta fidelidad para garantizar una amplificación precisa de la plantilla circular, varios cientos de copias de la plantilla circular compactadas en un área pequeña que da como resultado una señal intensa y la unión del fluoróforo a la sonda a una gran distancia del punto de ligadura da como resultado una ligadura mejorada.

Desventajas

La principal desventaja de la secuenciación de nanobolas de ADN es la corta longitud de lectura de las secuencias de ADN obtenidas con este método. Las lecturas cortas, especialmente para ADN con alto contenido de repeticiones de ADN , pueden mapear en dos o más regiones del genoma de referencia. Una segunda desventaja de este método es que deben usarse múltiples rondas de PCR. Esto puede introducir un sesgo de la PCR y posiblemente amplificar los contaminantes en la fase de construcción de la plantilla. Sin embargo, estas desventajas son comunes a todas las plataformas de secuenciación de lectura corta y no son específicas de las nanobolas de ADN.

Aplicaciones

La secuenciación de nanobolas de ADN se ha utilizado en estudios recientes. Lee y col. utilizó esta tecnología para encontrar mutaciones que estaban presentes en un cáncer de pulmón y las comparó con el tejido pulmonar normal. Fueron capaces de identificar más de 50.000 variantes de un solo nucleótido . Roach y col. utilizaron la secuenciación de nanobolas de ADN para secuenciar los genomas de una familia de cuatro parientes y pudieron identificar los SNP que pueden ser responsables de un trastorno mendeliano , y pudieron estimar la tasa de mutación entre generaciones. El Instituto de Biología de Sistemas ha utilizado esta tecnología para secuenciar 615 muestras completas del genoma humano como parte de una encuesta que estudia enfermedades neurodegenerativas , y el Instituto Nacional del Cáncer está utilizando la secuenciación de nanobolas de ADN para secuenciar 50 tumores y tejidos normales emparejados de cánceres pediátricos .

Significado

Las plataformas de secuenciación masivamente paralelas de próxima generación como la secuenciación de nanobolas de ADN pueden contribuir al diagnóstico y tratamiento de muchas enfermedades genéticas. El costo de secuenciar un genoma humano completo ha caído de aproximadamente un millón de dólares en 2008 a 4400 dólares en 2010 con la tecnología de nanoesferas de ADN. Secuenciando los genomas completos de pacientes con enfermedades hereditarias o cáncer , se han identificado mutaciones asociadas a estas enfermedades, abriendo estrategias, como terapias dirigidas a personas en riesgo y para el asesoramiento genético . A medida que el precio de secuenciar un genoma humano completo se acerca a la marca de $ 1000, la secuenciación genómica de cada individuo puede volverse factible como parte de la medicina preventiva normal .

Referencias