Secuencia ADN - DNA sequencing

La secuenciación del ADN es el proceso de determinar la secuencia del ácido nucleico , el orden de los nucleótidos en el ADN . Incluye cualquier método o tecnología que se utilice para determinar el orden de las cuatro bases: adenina , guanina , citosina y timina . El advenimiento de los métodos rápidos de secuenciación del ADN ha acelerado enormemente la investigación y el descubrimiento biológicos y médicos.

El conocimiento de las secuencias de ADN se ha vuelto indispensable para la investigación biológica básica y en numerosos campos aplicados como el diagnóstico médico , la biotecnología , la biología forense , la virología y la sistemática biológica . La comparación de secuencias de ADN sanas y mutadas puede diagnosticar diferentes enfermedades, incluidos varios cánceres, caracterizar el repertorio de anticuerpos y puede usarse para guiar el tratamiento del paciente. Tener una forma rápida de secuenciar el ADN permite administrar una atención médica más rápida e individualizada, y para identificar y catalogar más organismos.

La rápida velocidad de secuenciación lograda con la tecnología moderna de secuenciación de ADN ha sido fundamental en la secuenciación de secuencias completas de ADN, o genomas , de numerosos tipos y especies de vida, incluido el genoma humano y otras secuencias completas de ADN de muchos animales, plantas y microbios. especies.

Un ejemplo de los resultados de la secuenciación automática de ADN por terminación de cadena.

Las primeras secuencias de ADN fueron obtenidas a principios de la década de 1970 por investigadores académicos utilizando laboriosos métodos basados ​​en cromatografía bidimensional . Tras el desarrollo de métodos de secuenciación basados ​​en fluorescencia con un secuenciador de ADN, la secuenciación del ADN se ha vuelto más fácil y mucho más rápida.

Aplicaciones

La secuenciación de ADN puede usarse para determinar la secuencia de genes individuales , regiones genéticas más grandes (es decir, grupos de genes u operones ), cromosomas completos o genomas completos de cualquier organismo. La secuenciación de ADN también es la forma más eficaz de secuenciar indirectamente ARN o proteínas (a través de sus marcos de lectura abiertos ). De hecho, la secuenciación del ADN se ha convertido en una tecnología clave en muchas áreas de la biología y otras ciencias como la medicina, la ciencia forense y la antropología .

Biología Molecular

La secuenciación se utiliza en biología molecular para estudiar los genomas y las proteínas que codifican. La información obtenida mediante la secuenciación permite a los investigadores identificar cambios en los genes, asociaciones con enfermedades y fenotipos, e identificar posibles dianas farmacológicas.

Biología evolucionaria

Dado que el ADN es una macromolécula informativa en términos de transmisión de una generación a otra, la secuenciación del ADN se utiliza en biología evolutiva para estudiar cómo se relacionan los diferentes organismos y cómo evolucionaron. En febrero de 2021, los científicos informaron, por primera vez, de la secuenciación de ADN de restos de animales , un mamut en este caso, de más de un millón de años, el ADN más antiguo secuenciado hasta la fecha.

Metagenómica

El campo de la metagenómica implica la identificación de organismos presentes en una masa de agua, aguas residuales , suciedad, desechos filtrados del aire o muestras de hisopos de organismos. Saber qué organismos están presentes en un entorno particular es fundamental para la investigación en ecología , epidemiología , microbiología y otros campos. La secuenciación permite a los investigadores determinar qué tipos de microbios pueden estar presentes en un microbioma , por ejemplo.

Virología

Como la mayoría de los virus son demasiado pequeños para ser vistos con un microscopio óptico, la secuenciación es una de las principales herramientas en virología para identificar y estudiar el virus. Los genomas virales pueden basarse en ADN o ARN. Los virus de ARN son más sensibles al tiempo para la secuenciación del genoma, ya que se degradan más rápido en las muestras clínicas. La secuenciación tradicional de Sanger y la secuenciación de próxima generación se utilizan para secuenciar virus en investigación básica y clínica, así como para el diagnóstico de infecciones virales emergentes, epidemiología molecular de patógenos virales y pruebas de resistencia a fármacos. Hay más de 2,3 millones de secuencias virales únicas en GenBank . Recientemente, NGS ha superado al tradicional Sanger como el enfoque más popular para generar genomas virales.

Durante el brote de influenza aviar de 1990 , la secuenciación viral determinó que el subtipo de influenza se originó a través del reordenamiento entre codornices y aves de corral. Esto llevó a una legislación en Hong Kong que prohibía vender codornices vivas y aves de corral juntas en el mercado. La secuenciación viral también se puede utilizar para estimar cuándo comenzó un brote viral mediante el uso de una técnica de reloj molecular .

Medicamento

Los técnicos médicos pueden secuenciar genes (o, teóricamente, genomas completos) de los pacientes para determinar si existe riesgo de enfermedades genéticas. Esta es una forma de prueba genética , aunque es posible que algunas pruebas genéticas no impliquen la secuenciación del ADN.

La secuenciación de ADN también se utiliza cada vez más para diagnosticar y tratar enfermedades raras. A medida que se identifican más y más genes que causan enfermedades genéticas raras, los diagnósticos moleculares para los pacientes se vuelven más comunes. La secuenciación del ADN permite a los médicos identificar enfermedades genéticas, mejorar el manejo de enfermedades, brindar asesoramiento reproductivo y terapias más efectivas.

Además, la secuenciación de ADN puede ser útil para determinar una bacteria específica, para permitir tratamientos con antibióticos más precisos , reduciendo así el riesgo de crear resistencia antimicrobiana en poblaciones de bacterias.

Investigación forense

La secuenciación de ADN se puede utilizar junto con los métodos de elaboración de perfiles de ADN para la identificación forense y las pruebas de paternidad . Las pruebas de ADN han evolucionado enormemente en las últimas décadas para, en última instancia, vincular una impresión de ADN con lo que se está investigando. Los patrones de ADN en las huellas dactilares, la saliva, los folículos pilosos, etc. separan de forma única a cada organismo vivo de otro. La prueba de ADN es una técnica que puede detectar genomas específicos en una cadena de ADN para producir un patrón único e individualizado.

Las cuatro bases canónicas

La estructura canónica del ADN tiene cuatro bases: timina (T), adenina (A), citosina (C) y guanina (G). La secuenciación del ADN es la determinación del orden físico de estas bases en una molécula de ADN. Sin embargo, hay muchas otras bases que pueden estar presentes en una molécula. En algunos virus (específicamente, bacteriófagos ), la citosina puede ser reemplazada por hidroximetil o hidroximetilglucosa citosina. En el ADN de mamíferos, se pueden encontrar bases variantes con grupos metilo o fosfosulfato. Dependiendo de la técnica de secuenciación, una modificación particular, por ejemplo, el 5mC ( 5 metil citosina ) común en humanos, puede o no detectarse.

Historia

Descubrimiento de la estructura y función del ADN

El ácido desoxirribonucleico ( ADN ) fue descubierto y aislado por primera vez por Friedrich Miescher en 1869, pero permaneció subestimado durante muchas décadas porque se pensaba que las proteínas, en lugar del ADN, mantenían el modelo genético vivo. Esta situación cambió después de 1944 como resultado de algunos experimentos de Oswald Avery , Colin MacLeod y Maclyn McCarty que demostraron que el ADN purificado podía transformar una cepa de bacterias en otra. Esta fue la primera vez que se demostró que el ADN es capaz de transformar las propiedades de las células.

En 1953, James Watson y Francis Crick presentaron su modelo de ADN de doble hélice , basado en estructuras de rayos X cristalizadas que estaba estudiando Rosalind Franklin . Según el modelo, el ADN está compuesto por dos hebras de nucleótidos enrolladas entre sí, unidas por enlaces de hidrógeno y que corren en direcciones opuestas. Cada hebra está compuesta por cuatro nucleótidos complementarios: adenina (A), citosina (C), guanina (G) y timina (T), con una A en una hebra siempre emparejada con T en la otra, y C siempre emparejada con G. Propusieron que tal estructura permitía que cada hilo se usara para reconstruir el otro, una idea central para la transmisión de información hereditaria entre generaciones.

Frederick Sanger , pionero de la secuenciación. Sanger es uno de los pocos científicos que recibió dos premios Nobel, uno por la secuenciación de proteínas y el otro por la secuenciación del ADN.

Las bases para la secuenciación de proteínas fueron establecidas por primera vez por el trabajo de Frederick Sanger, quien en 1955 había completado la secuencia de todos los aminoácidos de la insulina , una pequeña proteína secretada por el páncreas. Esto proporcionó la primera evidencia concluyente de que las proteínas eran entidades químicas con un patrón molecular específico en lugar de una mezcla aleatoria de material suspendido en un fluido. El éxito de Sanger en la secuenciación de la insulina estimuló a los cristalógrafos de rayos X, incluidos Watson y Crick, que ahora estaban tratando de comprender cómo el ADN dirigía la formación de proteínas dentro de una célula. Poco después de asistir a una serie de conferencias impartidas por Frederick Sanger en octubre de 1954, Crick comenzó a desarrollar una teoría que sostenía que la disposición de los nucleótidos en el ADN determinaba la secuencia de aminoácidos en las proteínas, lo que a su vez ayudó a determinar la función de una proteína. Publicó esta teoría en 1958.

Secuenciación de ARN

La secuenciación de ARN fue una de las primeras formas de secuenciación de nucleótidos. El hito principal de la secuenciación de ARN es la secuencia del primer gen completo y el genoma completo del bacteriófago MS2 , identificado y publicado por Walter Fiers y sus compañeros de trabajo en la Universidad de Gante ( Gante , Bélgica ), en 1972 y 1976. Secuenciación de ARN tradicional Los métodos requieren la creación de una molécula de ADNc que debe secuenciarse.

Métodos tempranos de secuenciación de ADN

El primer método para determinar las secuencias de ADN involucró una estrategia de extensión de cebadores de ubicación específica establecida por Ray Wu en la Universidad de Cornell en 1970. Para secuenciar los extremos cohesivos se utilizaron la catálisis de la ADN polimerasa y el etiquetado específico de nucleótidos, que figuran de manera prominente en los esquemas de secuenciación actuales. del ADN del fago lambda. Entre 1970 y 1973, Wu, R Padmanabhan y sus colegas demostraron que este método se puede emplear para determinar cualquier secuencia de ADN utilizando cebadores sintéticos específicos de la ubicación. Frederick Sanger adoptó luego esta estrategia de extensión de cebadores para desarrollar métodos de secuenciación de ADN más rápidos en el MRC Centre , Cambridge , Reino Unido y publicó un método para "secuenciar el ADN con inhibidores de terminación de cadena" en 1977. Walter Gilbert y Allan Maxam de Harvard también desarrollaron métodos de secuenciación, incluido uno para la "secuenciación del ADN por degradación química". En 1973, Gilbert y Maxam informaron la secuencia de 24 pares de bases utilizando un método conocido como análisis de puntos errantes. Los avances en la secuenciación se vieron favorecidos por el desarrollo simultáneo de tecnología de ADN recombinante , que permitió aislar muestras de ADN de fuentes distintas de los virus.

Secuenciación de genomas completos

El genoma de 5.386 pb del bacteriófago φX174 . Cada bloque de color representa un gen.

El primer genoma de ADN completo en ser secuenciado fue el del bacteriófago φX174 en 1977. Los científicos del Consejo de Investigación Médica descifraron la secuencia de ADN completa del virus de Epstein-Barr en 1984, encontrando que contenía 172.282 nucleótidos. La finalización de la secuencia marcó un punto de inflexión significativo en la secuenciación del ADN porque se logró sin conocimiento previo del perfil genético del virus.

Herbert Pohl y sus colaboradores desarrollaron un método no radiactivo para transferir las moléculas de ADN de las mezclas de reacción de secuenciación a una matriz inmovilizadora durante la electroforesis a principios de la década de 1980. Seguido de la comercialización del secuenciador de ADN "Direct-Blotting-Electrophoresis-System GATC 1500" por GATC Biotech , que se utilizó intensamente en el marco del programa de secuenciación del genoma de la UE, la secuencia completa de ADN del cromosoma II de la levadura Saccharomyces cerevisiae . El laboratorio de Leroy E. Hood en el Instituto de Tecnología de California anunció la primera máquina de secuenciación de ADN semiautomática en 1986. A esto le siguió la comercialización de Applied Biosystems de la primera máquina de secuenciación completamente automatizada, la ABI 370, en 1987 y por Dupont Genesis 2000, que utilizó una nueva técnica de marcaje fluorescente que permite identificar los cuatro didesoxinucleótidos en un solo carril. En 1990, los Institutos Nacionales de Salud de EE. UU . (NIH) habían comenzado ensayos de secuenciación a gran escala de Mycoplasma capricolum , Escherichia coli , Caenorhabditis elegans y Saccharomyces cerevisiae a un costo de 0,75 dólares estadounidenses por base. Mientras tanto, la secuenciación de secuencias de ADNc humano llamadas etiquetas de secuencia expresada comenzó en el laboratorio de Craig Venter , un intento de capturar la fracción codificante del genoma humano . En 1995, Venter, Hamilton Smith y sus colegas del Instituto de Investigación Genómica (TIGR) publicaron el primer genoma completo de un organismo de vida libre, la bacteria Haemophilus influenzae . El cromosoma circular contiene 1.830.137 bases y su publicación en la revista Science marcó el primer uso publicado de secuenciación escopeta de genoma completo, eliminando la necesidad de esfuerzos iniciales de mapeo.

En 2001, se habían utilizado métodos de secuenciación de escopeta para producir un borrador de secuencia del genoma humano.

Métodos de secuenciación de alto rendimiento (HTS)

Historia de la tecnología de secuenciación 

Se desarrollaron varios métodos nuevos para la secuenciación del ADN a mediados y finales de la década de 1990 y se implementaron en secuenciadores de ADN comerciales en el año 2000. En conjunto, estos métodos se denominaron métodos de secuenciación de "próxima generación" o "segunda generación" (NGS), con el fin de para distinguirlos de los métodos anteriores, incluida la secuenciación de Sanger . A diferencia de la primera generación de secuenciación, la tecnología NGS se caracteriza típicamente por ser altamente escalable, lo que permite secuenciar todo el genoma a la vez. Por lo general, esto se logra fragmentando el genoma en trozos pequeños, muestreando aleatoriamente un fragmento y secuenciando usando una de una variedad de tecnologías, como las que se describen a continuación. Un genoma completo es posible porque se secuencian múltiples fragmentos a la vez (dándole el nombre de secuenciación "masivamente paralela") en un proceso automatizado.

La tecnología NGS ha empoderado enormemente a los investigadores para buscar conocimientos sobre la salud, a los antropólogos a investigar los orígenes humanos y está catalizando el movimiento de la " Medicina personalizada ". Sin embargo, también ha abierto la puerta a más margen de error. Existen muchas herramientas de software para llevar a cabo el análisis computacional de datos NGS, a menudo compiladas en plataformas en línea como CSI NGS Portal, cada una con su propio algoritmo. Incluso los parámetros dentro de un paquete de software pueden cambiar el resultado del análisis. Además, las grandes cantidades de datos producidas por la secuenciación del ADN también han requerido el desarrollo de nuevos métodos y programas para el análisis de secuencias. Se han realizado varios esfuerzos para desarrollar estándares en el campo de NGS para abordar estos desafíos, la mayoría de los cuales han sido esfuerzos a pequeña escala que surgen de laboratorios individuales. Más recientemente, un gran esfuerzo organizado y financiado por la FDA ha culminado en el estándar BioCompute .

El 26 de octubre de 1990, Roger Tsien , Pepi Ross, Margaret Fahnestock y Allan J Johnston presentaron una patente que describe la secuenciación escalonada ("base por base") con bloqueadores 3 'extraíbles en matrices de ADN (transferencias y moléculas de ADN individuales). En 1996, Pål Nyrén y su alumno Mostafa Ronaghi del Real Instituto de Tecnología de Estocolmo publicaron su método de pirosecuenciación .

El 1 de abril de 1997, Pascal Mayer  [ fr ] y Laurent Farinelli presentaron patentes a la Organización Mundial de la Propiedad Intelectual que describen la secuenciación de colonias de ADN. La preparación de muestras de ADN y los métodos de arrastre de la reacción en cadena de la polimerasa de superficie aleatoria (PCR) descritos en esta patente, junto con el método de secuenciación "base por base" de Roger Tsien et al., Ahora se implementa en Hi-Seq de Illumina . secuenciadores de genoma.

En 1998, Phil Green y Brent Ewing de la Universidad de Washington describieron su puntaje de calidad phred para el análisis de datos del secuenciador, una técnica de análisis histórica que obtuvo una adopción generalizada y que sigue siendo la métrica más común para evaluar la precisión de una plataforma de secuenciación.

Lynx Therapeutics publicó y comercializó la secuenciación masiva de firmas paralelas (MPSS), en 2000. Este método incorporó una tecnología de secuenciación basada en perlas, mediada por adaptador / ligadura en paralelo, y sirvió como el primer método de secuenciación de "próxima generación" disponible comercialmente, aunque no Los secuenciadores de ADN se vendieron a laboratorios independientes.

Metodos basicos

Secuenciación de Maxam-Gilbert

Allan Maxam y Walter Gilbert publicaron un método de secuenciación de ADN en 1977 basado en la modificación química del ADN y la posterior escisión en bases específicas. También conocido como secuenciación química, este método permitió el uso de muestras purificadas de ADN de doble hebra sin clonación adicional. El uso de este método de etiquetado radiactivo y su complejidad técnica desalentaron un uso extensivo después de que se hicieron refinamientos en los métodos de Sanger.

La secuenciación de Maxam-Gilbert requiere el marcaje radiactivo en un extremo 5 'del ADN y la purificación del fragmento de ADN que se va a secuenciar. El tratamiento químico genera entonces roturas en una pequeña proporción de una o dos de las cuatro bases de nucleótidos en cada una de las cuatro reacciones (G, A + G, C, C + T). La concentración de los químicos modificadores se controla para introducir en promedio una modificación por molécula de ADN. Por tanto, se genera una serie de fragmentos marcados, desde el extremo radiomarcado hasta el primer sitio de "corte" en cada molécula. Los fragmentos de las cuatro reacciones se someten a electroforesis uno al lado del otro en geles de acrilamida desnaturalizantes para la separación por tamaños. Para visualizar los fragmentos, el gel se expone a una película de rayos X para autorradiografía, produciendo una serie de bandas oscuras, cada una correspondiente a un fragmento de ADN radiomarcado, a partir del cual se puede inferir la secuencia.

Métodos de terminación de cadena

El método de terminación de cadena desarrollado por Frederick Sanger y sus colaboradores en 1977 pronto se convirtió en el método de elección, debido a su relativa facilidad y confiabilidad. Cuando se inventó, el método del terminador de cadena usaba menos productos químicos tóxicos y menores cantidades de radiactividad que el método de Maxam y Gilbert. Debido a su facilidad comparativa, el método Sanger pronto se automatizó y fue el método utilizado en la primera generación de secuenciadores de ADN .

La secuenciación de Sanger es el método que prevaleció desde la década de 1980 hasta mediados de la década de 2000. Durante ese período, se lograron grandes avances en la técnica, como el marcaje fluorescente, la electroforesis capilar y la automatización general. Estos desarrollos permitieron una secuenciación mucho más eficiente, lo que condujo a menores costos. El método Sanger, en forma de producción en masa, es la tecnología que produjo el primer genoma humano en 2001, marcando el comienzo de la era de la genómica . Sin embargo, más adelante en la década, llegaron al mercado enfoques radicalmente diferentes, lo que redujo el costo por genoma de $ 100 millones en 2001 a $ 10,000 en 2011.

Secuenciación a gran escala y de novo secuenciación

El ADN genómico se fragmenta en piezas aleatorias y se clona como una biblioteca bacteriana. El ADN de los clones bacterianos individuales se secuencia y la secuencia se ensambla utilizando regiones de ADN superpuestas (haga clic para expandir).

La secuenciación a gran escala a menudo tiene como objetivo secuenciar piezas de ADN muy largas, como cromosomas completos , aunque la secuenciación a gran escala también se puede utilizar para generar un gran número de secuencias cortas, como las que se encuentran en la presentación de fagos . Para objetivos más largos, como los cromosomas, los enfoques comunes consisten en cortar (con enzimas de restricción ) o cizallar (con fuerzas mecánicas) grandes fragmentos de ADN en fragmentos de ADN más cortos. El ADN fragmentado puede luego clonarse en un vector de ADN y amplificarse en un huésped bacteriano como Escherichia coli . Los fragmentos cortos de ADN purificados de colonias bacterianas individuales se secuencian individualmente y se ensamblan electrónicamente en una secuencia larga y contigua. Los estudios han demostrado que agregar un paso de selección de tamaño para recolectar fragmentos de ADN de tamaño uniforme puede mejorar la eficiencia de secuenciación y la precisión del ensamblaje del genoma. En estos estudios, el dimensionamiento automatizado ha demostrado ser más reproducible y preciso que el dimensionamiento manual del gel.

El término " secuenciación de novo " se refiere específicamente a métodos usados ​​para determinar la secuencia de ADN sin una secuencia previamente conocida. De novo se traduce del latín como "desde el principio". Los huecos en la secuencia ensamblada pueden llenarse caminando con el cebador . Las diferentes estrategias tienen diferentes compensaciones en velocidad y precisión; Los métodos de escopeta se utilizan a menudo para secuenciar genomas grandes, pero su ensamblaje es complejo y difícil, particularmente con secuencias repetidas que a menudo causan brechas en el ensamblaje del genoma.

La mayoría de los enfoques de secuenciación utilizan un paso de clonación in vitro para amplificar moléculas de ADN individuales, porque sus métodos de detección molecular no son lo suficientemente sensibles para la secuenciación de una sola molécula. La PCR en emulsión aísla moléculas de ADN individuales junto con perlas recubiertas de imprimación en gotitas acuosas dentro de una fase oleosa. Luego, una reacción en cadena de la polimerasa (PCR) recubre cada perla con copias clonales de la molécula de ADN seguida de inmovilización para su posterior secuenciación. La PCR en emulsión se utiliza en los métodos desarrollados por Marguilis et al. (comercializado por 454 Life Sciences ), Shendure y Porreca et al. (también conocida como " secuenciación polony ") y secuenciación SOLiD , (desarrollada por Agencourt , más tarde Applied Biosystems , ahora Life Technologies ). La PCR en emulsión también se utiliza en las plataformas GemCode y Chromium desarrolladas por 10x Genomics .

Secuencia de escopeta

La secuenciación por escopeta es un método de secuenciación diseñado para el análisis de secuencias de ADN de más de 1000 pares de bases, hasta e incluyendo cromosomas completos. Este método requiere que el ADN diana se rompa en fragmentos aleatorios. Después de secuenciar los fragmentos individuales, las secuencias se pueden reensamblar sobre la base de sus regiones superpuestas.

Métodos de alto rendimiento

Las lecturas de secuencias múltiples y fragmentadas deben ensamblarse sobre la base de sus áreas superpuestas.

La secuenciación de alto rendimiento, que incluye métodos de secuenciación de "lectura corta" de próxima generación y de "lectura larga" de tercera generación, se aplica a la secuenciación del exoma, la secuenciación del genoma, la resecuenciación del genoma, la elaboración de perfiles de transcriptoma ( RNA-Seq ), las interacciones ADN-proteína ( Secuenciación de ChIP ) y caracterización de epigenomas . La resecuenciación es necesaria, porque el genoma de un solo individuo de una especie no indicará todas las variaciones del genoma entre otros individuos de la misma especie.

La gran demanda de secuenciación de bajo costo ha impulsado el desarrollo de tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias al mismo tiempo. Las tecnologías de secuenciación de alto rendimiento están destinadas a reducir el costo de la secuenciación del ADN más allá de lo que es posible con los métodos estándar de terminación por colorante. En la secuenciación de rendimiento ultra alto, se pueden ejecutar en paralelo hasta 500.000 operaciones de secuenciación por síntesis. Estas tecnologías llevaron a la capacidad de secuenciar un genoma humano completo en tan solo un día. A partir de 2019, los líderes corporativos en el desarrollo de productos de secuenciación de alto rendimiento incluyen Illumina , Qiagen y ThermoFisher Scientific .

Comparación de métodos de secuenciación de alto rendimiento
Método Longitud de lectura Precisión (lectura única, no consenso) Lecturas por ejecución Tiempo por ejecución Costo por mil millones de bases (en dólares estadounidenses) Ventajas Desventajas
Secuenciación en tiempo real de una sola molécula (Pacific Biosciences) 30.000 pb ( N50 );

longitud máxima de lectura> 100.000 bases

87% de precisión de lectura sin procesar 4,000,000 por celda Sequel 2 SMRT, 100–200 gigabases 30 minutos a 20 horas $ 7.2- $ 43.3 Rápido. Detecta 4mC, 5mC, 6mA. Rendimiento moderado. El equipo puede resultar muy caro.
Semiconductor de iones (secuenciación Ion Torrent) hasta 600 pb 99,6% hasta 80 millones 2 horas $ 66.8- $ 950 Equipo menos costoso. Rápido. Errores de homopolímeros.
Pirosecuenciación (454) 700 pb 99,9% 1 millón 24 horas $ 10,000 Tamaño de lectura largo. Rápido. Las carreras son caras. Errores de homopolímeros.
Secuenciación por síntesis (Illumina) MiniSeq, NextSeq: 75–300 pb;

MiSeq: 50–600 pb;

HiSeq 2500: 50–500 pb;

HiSeq 3/4000: 50–300 pb;

HiSeq X: 300 pb

99,9% (Phred30) MiniSeq / MiSeq: 1–25 millones;

NextSeq: 130-00 millones;

HiSeq 2500: 300 millones - 2 mil millones;

HiSeq 3/4000 2,5 mil millones;

HiSeq X: 3000 millones

1 a 11 días, según el secuenciador y la duración de lectura especificada $ 5 a $ 150 Potencial de alto rendimiento de secuencia, según el modelo de secuenciador y la aplicación deseada. El equipo puede resultar muy caro. Requiere altas concentraciones de ADN.
Síntesis de anclaje de sonda combinatoria (cPAS-BGI / MGI) BGISEQ-50: 35-50 pb;

MGISEQ 200: 50-200 pb;

BGISEQ-500, MGISEQ-2000: 50-300 pb

99,9% (Phred30) BGISEQ-50: 160 M;

MGISEQ 200: 300 M;

BGISEQ-500: 1300M por celda de flujo;

MGISEQ-2000: celda de flujo 375M FCS, celda de flujo 1500M FCL por celda de flujo.

De 1 a 9 días, según el instrumento, la longitud de lectura y la cantidad de celdas de flujo que se ejecutan a la vez. $ 5– $ 120
Secuenciación por ligadura (secuenciación SOLiD) 50 + 35 o 50 + 50 pb 99,9% 1.2 a 1.4 mil millones 1 a 2 semanas $ 60-130 Bajo costo por base. Más lento que otros métodos. Tiene problemas para secuenciar secuencias palindrómicas.
Secuenciación de nanoporos Depende de la preparación de la biblioteca, no del dispositivo, por lo que el usuario elige la longitud de lectura (hasta 2.272.580 pb informados). ~ 92-97% lectura única depende de la longitud de lectura seleccionada por el usuario datos transmitidos en tiempo real. Elija 1 min a 48 hrs $ 7-100 Lecturas individuales más largas. Comunidad de usuarios accesible. Portátil (tamaño de la palma de la mano). Rendimiento más bajo que otras máquinas, precisión de lectura única en 90.
Secuenciación GenapSys Alrededor de 150 pb de un solo extremo 99,9% (Phred30) 1 a 16 millones Alrededor de las 24 horas $ 667 Instrumento de bajo costo ($ 10,000)
Terminación de cadena (secuenciación de Sanger) 400 a 900 pb 99,9% N / A 20 minutos a 3 horas $ 2,400,000 Útil para muchas aplicaciones. Más caro y poco práctico para proyectos de secuenciación más grandes. Este método también requiere el paso lento de la clonación de plásmidos o PCR.

Métodos de secuenciación de lectura larga

Secuenciación en tiempo real de una sola molécula (SMRT)

La secuenciación SMRT se basa en el método de secuenciación por síntesis. El ADN se sintetiza en guías de onda de modo cero (ZMW): pequeños contenedores en forma de pozo con las herramientas de captura ubicadas en el fondo del pozo. La secuenciación se realiza con el uso de polimerasa sin modificar (unida al fondo de ZMW) y nucleótidos marcados con fluorescencia que fluyen libremente en la solución. Los pocillos están construidos de manera que solo se detecte la fluorescencia que se produce en el fondo del pocillo. El marcador fluorescente se desprende del nucleótido tras su incorporación a la hebra de ADN, dejando una hebra de ADN sin modificar. Según Pacific Biosciences (PacBio), el desarrollador de la tecnología SMRT, esta metodología permite la detección de modificaciones de nucleótidos (como la metilación de citosina). Esto sucede mediante la observación de la cinética de la polimerasa. Este enfoque permite lecturas de 20.000 nucleótidos o más, con longitudes de lectura promedio de 5 kilobases. En 2015, Pacific Biosciences anunció el lanzamiento de un nuevo instrumento de secuenciación llamado Sequel System, con 1 millón de ZMW en comparación con 150,000 ZMW en el instrumento PacBio RS II. La secuenciación SMRT se conoce como secuenciación de " tercera generación " o "lectura larga".

Secuenciación de ADN de nanoporos

El ADN que pasa a través del nanoporo cambia su corriente iónica. Este cambio depende de la forma, el tamaño y la longitud de la secuencia de ADN. Cada tipo de nucleótido bloquea el flujo de iones a través del poro durante un período de tiempo diferente. El método no requiere nucleótidos modificados y se realiza en tiempo real. La secuenciación de nanoporos se conoce como secuenciación de " tercera generación " o "lectura larga", junto con secuenciación SMRT.

Las primeras investigaciones industriales sobre este método se basaron en una técnica llamada "secuenciación de exonucleasas", en la que la lectura de señales eléctricas se producía cuando los nucleótidos pasaban por los poros de alfa (α) -hemolisina unidos covalentemente con ciclodextrina . Sin embargo, el método comercial posterior, "secuenciación de hebras", secuenciaba las bases de ADN en una hebra intacta.

Dos áreas principales de secuenciación de nanoporos en desarrollo son la secuenciación de nanoporos en estado sólido y la secuenciación de nanoporos basada en proteínas. La secuenciación de nanoporos de proteínas utiliza complejos de proteínas de membrana como α-hemolisina, MspA ( Mycobacterium smegmatis Porin A) o CssG, que son muy prometedores dada su capacidad para distinguir entre individuos y grupos de nucleótidos. Por el contrario, la secuenciación de nanoporos de estado sólido utiliza materiales sintéticos como el nitruro de silicio y el óxido de aluminio y se prefiere por su capacidad mecánica superior y su estabilidad térmica y química. El método de fabricación es fundamental para este tipo de secuenciación dado que la matriz de nanoporos puede contener cientos de poros con diámetros inferiores a ocho nanómetros.

El concepto se originó a partir de la idea de que las moléculas de ADN o ARN monocatenario pueden ser impulsadas electroforéticamente en una secuencia lineal estricta a través de un poro biológico que puede tener menos de ocho nanómetros, y puede detectarse dado que las moléculas liberan una corriente iónica mientras se mueven a través del poro. El poro contiene una región de detección capaz de reconocer diferentes bases, generando cada base varias señales específicas de tiempo correspondientes a la secuencia de bases a medida que cruzan el poro que luego se evalúan. El control preciso sobre el transporte de ADN a través del poro es crucial para el éxito. Se han utilizado varias enzimas como exonucleasas y polimerasas para moderar este proceso colocándolas cerca de la entrada del poro.

Métodos de secuenciación de lectura corta

Secuenciación de firmas masivamente paralela (MPSS)

La primera de las tecnologías de secuenciación de alto rendimiento, la secuenciación masiva de firmas paralelas (o MPSS), se desarrolló en la década de 1990 en Lynx Therapeutics, una empresa fundada en 1992 por Sydney Brenner y Sam Eletr . MPSS era un método basado en perlas que utilizaba un enfoque complejo de ligadura de adaptadores seguida de decodificación de adaptadores, leyendo la secuencia en incrementos de cuatro nucleótidos. Este método lo hizo susceptible a sesgos específicos de secuencia o pérdida de secuencias específicas. Debido a que la tecnología era tan compleja, Lynx Therapeutics solo realizaba MPSS "internamente" y no se vendían máquinas de secuenciación de ADN a laboratorios independientes. Lynx Therapeutics se fusionó con Solexa (luego adquirida por Illumina ) en 2004, lo que llevó al desarrollo de la secuenciación por síntesis, un enfoque más simple adquirido de Manteia Predictive Medicine , que dejó obsoleto al MPSS. Sin embargo, las propiedades esenciales de la salida MPSS eran típicas de los tipos de datos de alto rendimiento posteriores, incluidos cientos de miles de secuencias cortas de ADN. En el caso de MPSS, estos se usaron típicamente para secuenciar el ADNc para las mediciones de los niveles de expresión génica .

Secuenciación de polony

El método de secuenciación polonia , desarrollado en el laboratorio de George M. Church en Harvard, fue uno de los primeros sistemas de secuenciación de alto rendimiento y se utilizó para secuenciar un genoma completo de E. coli en 2005. Combinó una biblioteca de etiquetas emparejadas in vitro con PCR en emulsión, un microscopio automático y química de secuenciación basada en ligadura para secuenciar un genoma de E. coli con una precisión de> 99,9999% y un costo de aproximadamente 1/9 del de la secuenciación de Sanger. La tecnología fue licenciada a Agencourt Biosciences, posteriormente se convirtió en Agencourt Personal Genomics, y finalmente se incorporó a la plataforma SOLiD de Applied Biosystems . Posteriormente, Applied Biosystems fue adquirida por Life Technologies , ahora parte de Thermo Fisher Scientific .

454 pirosecuenciación

454 Life Sciences , que desde entonces ha sido adquirida por Roche Diagnostics, desarrolló una versión paralelizada de pirosecuenciación . El método amplifica el ADN dentro de las gotas de agua en una solución de aceite (PCR en emulsión), y cada gota contiene una única plantilla de ADN unida a una sola perla recubierta de cebador que luego forma una colonia clonal. La máquina de secuenciación contiene muchos pocillos de volumen de picolitros, cada uno de los cuales contiene una sola perla y enzimas de secuenciación. La pirosecuenciación usa luciferasa para generar luz para la detección de los nucleótidos individuales agregados al ADN naciente, y los datos combinados se usan para generar lecturas de secuencia . Esta tecnología proporciona una longitud de lectura intermedia y un precio por base en comparación con la secuenciación de Sanger en un extremo y Solexa y SOLiD en el otro.

Secuenciación de Illumina (Solexa)

Solexa , ahora parte de Illumina , fue fundada por Shankar Balasubramanian y David Klenerman en 1998 y desarrolló un método de secuenciación basado en tecnología de terminadores de colorante reversibles y polimerasas diseñadas. El concepto de química terminada reversible fue inventado por Bruno Canard y Simon Sarfati en el Instituto Pasteur de París. Fue desarrollado internamente en Solexa por aquellos nombrados en las patentes relevantes. En 2004, Solexa adquirió la empresa Manteia Predictive Medicine para obtener una tecnología de secuenciación paralela masiva inventada en 1997 por Pascal Mayer  [ fr ] y Laurent Farinelli. Se basa en "grupos de ADN" o "colonias de ADN", lo que implica la amplificación clonal del ADN en una superficie. La tecnología de clúster fue co-adquirida con Lynx Therapeutics of California. Solexa Ltd. luego se fusionó con Lynx para formar Solexa Inc.

Un secuenciador Illumina HiSeq 2500
Celda de flujo Illumina NovaSeq 6000

En este método, las moléculas de ADN y los cebadores se unen primero en un portaobjetos o celda de flujo y se amplifican con polimerasa de modo que se formen colonias de ADN clonales locales, posteriormente denominadas "agrupaciones de ADN". Para determinar la secuencia, se añaden cuatro tipos de bases terminadoras reversibles (bases RT) y se eliminan por lavado los nucleótidos no incorporados. Una cámara toma imágenes de los nucleótidos marcados con fluorescencia . Luego, el tinte, junto con el bloqueador terminal 3 ', se elimina químicamente del ADN, lo que permite que comience el siguiente ciclo. A diferencia de la pirosecuenciación, las cadenas de ADN se extienden un nucleótido a la vez y la adquisición de imágenes se puede realizar en un momento retrasado, lo que permite capturar conjuntos muy grandes de colonias de ADN mediante imágenes secuenciales tomadas con una sola cámara.

Un secuenciador Illumina MiSeq

El desacoplamiento de la reacción enzimática y la captura de imágenes permite un rendimiento óptimo y una capacidad de secuenciación teóricamente ilimitada. Con una configuración óptima, el rendimiento del instrumento finalmente alcanzable viene dictado únicamente por la tasa de conversión de analógico a digital de la cámara, multiplicada por la cantidad de cámaras y dividida por la cantidad de píxeles por colonia de ADN necesarios para visualizarlas de manera óptima (aproximadamente 10 píxeles / colonia). En 2012, con cámaras funcionando a tasas de conversión A / D de más de 10 MHz y ópticas, fluídicas y enzimáticas disponibles, el rendimiento puede ser múltiplos de 1 millón de nucleótidos / segundo, lo que corresponde aproximadamente a 1 genoma humano equivalente a una cobertura de 1x por hora por instrumento. y 1 genoma humano re-secuenciado (a aproximadamente 30x) por día por instrumento (equipado con una sola cámara).

Síntesis de anclaje de sonda combinatoria (cPAS)

Este método es una modificación mejorada de la tecnología combinatoria de ligadura de anclaje de sonda (cPAL) descrita por Complete Genomics, que desde entonces se ha convertido en parte de la empresa china de genómica BGI en 2013. Las dos empresas han refinado la tecnología para permitir longitudes de lectura más largas, reducciones del tiempo de reacción y tiempo más rápido para obtener resultados. Además, los datos ahora se generan como lecturas completas contiguas en el formato de archivo estándar FASTQ y se pueden usar tal cual en la mayoría de los procesos de análisis bioinformático basados ​​en lecturas cortas.

Las dos tecnologías que forman la base de esta tecnología de secuenciación de alto rendimiento son las nanobolas de ADN (DNB) y las matrices con patrones para la fijación de nanobolas a una superficie sólida. Las nanobolas de ADN se forman simplemente desnaturalizando bibliotecas ligadas con adaptadores de doble hebra y ligando la hebra delantera solo a un oligonucleótido de férula para formar un círculo de ssDNA. Se producen copias fieles de los círculos que contienen el inserto de ADN utilizando Rolling Circle Amplification que genera aproximadamente 300-500 copias. La larga hebra de ssDNA se pliega sobre sí misma para producir una estructura de nanoesferas tridimensional que tiene aproximadamente 220 nm de diámetro. La fabricación de DNB reemplaza la necesidad de generar copias de PCR de la biblioteca en la celda de flujo y, como tal, puede eliminar grandes proporciones de lecturas duplicadas, ligaduras de adaptador-adaptador y errores inducidos por PCR.

Un secuenciador BGI MGISEQ-2000RS

La matriz modelada de puntos cargados positivamente se fabrica mediante fotolitografía y técnicas de grabado seguidas de modificación química para generar una celda de flujo de secuenciación. Cada punto en la celda de flujo tiene aproximadamente 250 nm de diámetro, están separados por 700 nm (de centro a centro) y permite una fácil conexión de un solo DNB cargado negativamente a la celda de flujo y, por lo tanto, reduce la concentración insuficiente o excesiva en la celda de flujo.

La secuenciación se realiza luego mediante la adición de una sonda de oligonucleótidos que se une en combinación a sitios específicos dentro del DNB. La sonda actúa como un ancla que luego permite que uno de los cuatro nucleótidos marcados, inactivados de forma reversible, se una después de fluir a través de la celda de flujo. Los nucleótidos no unidos se eliminan antes de la excitación láser de las etiquetas adjuntas, luego emiten fluorescencia y las cámaras capturan la señal que se convierte en una salida digital para la llamada de bases. La base adjunta tiene su terminador y etiqueta escindidos químicamente al completar el ciclo. El ciclo se repite con otro flujo de nucleótidos libres marcados a través de la celda de flujo para permitir que el siguiente nucleótido se una y capture su señal. Este proceso se completa varias veces (generalmente de 50 a 300 veces) para determinar la secuencia de la pieza de ADN insertada a una velocidad de aproximadamente 40 millones de nucleótidos por segundo a partir de 2018.

Secuenciación SOLiD

Preparación de la biblioteca para la plataforma SOLiD
Esquema de codificación de dos bases. En la codificación de dos bases, a cada par único de bases en el extremo 3 'de la sonda se le asigna uno de los cuatro colores posibles. Por ejemplo, "AA" se asigna al azul, "AC" se asigna al verde, y así sucesivamente para los 16 pares únicos. Durante la secuenciación, cada base de la plantilla se secuencia dos veces y los datos resultantes se decodifican de acuerdo con este esquema.

La tecnología SOLiD de Applied Biosystems (ahora una marca de Life Technologies ) emplea secuenciación por ligadura . Aquí, un conjunto de todos los posibles oligonucleótidos de una longitud fija se marca de acuerdo con la posición secuenciada. Los oligonucleótidos se hibridan y se ligan; la ligadura preferencial por ADN ligasa para emparejar secuencias da como resultado una señal informativa del nucleótido en esa posición. Cada base de la plantilla se secuencia dos veces y los datos resultantes se decodifican de acuerdo con el esquema de codificación de 2 bases utilizado en este método. Antes de la secuenciación, el ADN se amplifica mediante PCR en emulsión. Las perlas resultantes, cada una de las cuales contiene copias individuales de la misma molécula de ADN, se depositan en un portaobjetos de vidrio. El resultado son secuencias de cantidades y longitudes comparables a la secuenciación de Illumina. Se ha informado que esta secuenciación por método de ligación tiene algunos problemas para secuenciar secuencias palindrómicas.

Secuenciación de semiconductores Ion Torrent

Ion Torrent Systems Inc. (ahora propiedad de Life Technologies ) desarrolló un sistema basado en el uso de química de secuenciación estándar, pero con un novedoso sistema de detección basado en semiconductores. Este método de secuenciación se basa en la detección de iones de hidrógeno que se liberan durante la polimerización del ADN , a diferencia de los métodos ópticos utilizados en otros sistemas de secuenciación. Un micropocillo que contiene una hebra de ADN molde que se va a secuenciar se inunda con un solo tipo de nucleótido . Si el nucleótido introducido es complementario al nucleótido molde principal, se incorpora a la hebra complementaria en crecimiento. Esto provoca la liberación de un ión de hidrógeno que activa un sensor de iones hipersensible, lo que indica que se ha producido una reacción. Si hay repeticiones de homopolímeros presentes en la secuencia molde, se incorporarán múltiples nucleótidos en un solo ciclo. Esto conduce a un número correspondiente de hidrógenos liberados y una señal electrónica proporcionalmente más alta.

Secuenciación de la plantilla TAGGCT con IonTorrent, PacBioRS y GridION

Secuenciación de nanobolas de ADN

La secuenciación de nanobolas de ADN es un tipo de tecnología de secuenciación de alto rendimiento que se utiliza para determinar la secuencia genómica completa de un organismo. La empresa Complete Genomics utiliza esta tecnología para secuenciar muestras enviadas por investigadores independientes. El método utiliza la replicación en círculo rodante para amplificar pequeños fragmentos de ADN genómico en nanobolas de ADN. A continuación, se utiliza la secuenciación desencadenada por ligación para determinar la secuencia de nucleótidos. Este método de secuenciación de ADN permite secuenciar un gran número de nanobolas de ADN por ejecución y con bajos costos de reactivos en comparación con otras plataformas de secuenciación de alto rendimiento. Sin embargo, solo se determinan secuencias cortas de ADN de cada nanobola de ADN, lo que dificulta el mapeo de las lecturas cortas en un genoma de referencia . Esta tecnología se ha utilizado para múltiples proyectos de secuenciación del genoma y está previsto que se utilice en más.

Secuenciación de una sola molécula de heliscopio

La secuenciación de heliscopio es un método de secuenciación de una sola molécula desarrollado por Helicos Biosciences . Utiliza fragmentos de ADN con adaptadores de cola poli-A añadidos que se adhieren a la superficie de la celda de flujo. Los siguientes pasos implican la secuenciación basada en la extensión con lavados cíclicos de la celda de flujo con nucleótidos marcados con fluorescencia (un tipo de nucleótido a la vez, como con el método Sanger). Las lecturas las realiza el secuenciador Heliscope. Las lecturas son cortas, con un promedio de 35 pb. Lo que hizo que esta tecnología fuera especialmente novedosa fue que fue la primera de su clase en secuenciar ADN no amplificado, evitando así cualquier error de lectura asociado con los pasos de amplificación. En 2009 se secuenció un genoma humano utilizando el Heliscope, sin embargo, en 2012 la empresa quebró.

Sistemas de microfluidos

Hay dos sistemas microfluídicos principales que se utilizan para secuenciar el ADN; microfluidos basados ​​en gotas y microfluidos digitales . Los dispositivos de microfluidos resuelven muchas de las limitaciones actuales de las matrices de secuenciación actuales.

Abate y col. estudiaron el uso de dispositivos de microfluidos basados ​​en gotas para la secuenciación del ADN. Estos dispositivos tienen la capacidad de formar y procesar gotas del tamaño de un picolitro a una velocidad de miles por segundo. Los dispositivos se crearon a partir de polidimetilsiloxano (PDMS) y utilizaron la transferencia de energía por resonancia de Forster, ensayos FRET para leer las secuencias de ADN incluidas en las gotitas. Cada posición en la matriz probó una secuencia específica de 15 bases.

Fair et al. utilizó dispositivos de microfluidos digitales para estudiar la pirosecuenciación del ADN . Las ventajas significativas incluyen la portabilidad del dispositivo, el volumen de reactivo, la velocidad de análisis, la capacidad de fabricación en masa y el alto rendimiento. Este estudio proporcionó una prueba de concepto que muestra que los dispositivos digitales se pueden utilizar para la pirosecuenciación; el estudio incluyó el uso de síntesis, que implica la extensión de las enzimas y la adición de nucleótidos marcados.

Boles y col. también estudió la pirosecuenciación en dispositivos microfluídicos digitales. Utilizaron un dispositivo de electrohumectación para crear, mezclar y dividir gotas. La secuenciación utiliza un protocolo de tres enzimas y plantillas de ADN ancladas con perlas magnéticas. El dispositivo se probó utilizando dos protocolos y resultó en una precisión del 100% según los niveles de pirograma sin procesar. Las ventajas de estos dispositivos de microfluidos digitales incluyen tamaño, costo y niveles alcanzables de integración funcional.

La investigación de secuenciación de ADN, utilizando microfluidos, también tiene la capacidad de aplicarse a la secuenciación de ARN , utilizando técnicas de microfluidos de gotitas similares, como el método inDrops. Esto muestra que muchas de estas técnicas de secuenciación de ADN podrán aplicarse más y usarse para comprender más sobre genomas y transcriptomas.

Métodos en desarrollo

Los métodos de secuenciación de ADN que se encuentran actualmente en desarrollo incluyen la lectura de la secuencia a medida que una hebra de ADN transita a través de nanoporos (un método que ahora es comercial, pero las generaciones posteriores, como los nanoporos de estado sólido, aún están en desarrollo), y técnicas basadas en microscopía, como la microscopía de fuerza atómica. o microscopía electrónica de transmisión que se utilizan para identificar las posiciones de nucleótidos individuales dentro de fragmentos de ADN largos (> 5.000 pb) mediante marcaje de nucleótidos con elementos más pesados ​​(por ejemplo, halógenos) para detección y registro visual. Las tecnologías de tercera generación tienen como objetivo aumentar el rendimiento y disminuir el tiempo de obtención de resultados y el costo al eliminar la necesidad de reactivos excesivos y aprovechar la procesividad de la ADN polimerasa.

Corrientes de tunelización Secuenciación de ADN

Otro enfoque utiliza mediciones de las corrientes de tunelización eléctricas a través del ADN monocatenario a medida que se mueve a través de un canal. Dependiendo de su estructura electrónica, cada base afecta la corriente de tunelización de manera diferente, permitiendo diferenciar entre diferentes bases.

El uso de corrientes de túnel tiene el potencial de secuenciar órdenes de magnitud más rápido que los métodos de corriente iónica y ya se ha logrado la secuenciación de varios oligómeros de ADN y micro-ARN.

Secuenciación por hibridación

La secuenciación por hibridación es un método no enzimático que utiliza una micromatriz de ADN . Un único conjunto de ADN cuya secuencia se va a determinar se marca con fluorescencia y se hibrida con una matriz que contiene secuencias conocidas. Las fuertes señales de hibridación de un punto dado en la matriz identifican su secuencia en el ADN que se secuencia.

Este método de secuenciación utiliza las características de unión de una biblioteca de moléculas de ADN monocatenarias cortas (oligonucleótidos), también llamadas sondas de ADN, para reconstruir una secuencia de ADN diana. Los híbridos no específicos se eliminan mediante lavado y se eluye el ADN diana. Los híbridos se reorganizan de manera que se pueda reconstruir la secuencia de ADN. El beneficio de este tipo de secuenciación es su capacidad para capturar una gran cantidad de objetivos con una cobertura homogénea. Por lo general, se requiere una gran cantidad de productos químicos y ADN de partida. Sin embargo, con el advenimiento de la hibridación basada en soluciones, se necesitan muchos menos equipos y productos químicos.

Secuenciación con espectrometría de masas

Puede usarse espectrometría de masas para determinar secuencias de ADN. La espectrometría de masas de tiempo de vuelo de ionización por desorción por láser asistida por matriz, o MALDI-TOF MS , se ha investigado específicamente como un método alternativo a la electroforesis en gel para visualizar fragmentos de ADN. Con este método, los fragmentos de ADN generados por reacciones de secuenciación de terminación de cadena se comparan por masa en lugar de por tamaño. La masa de cada nucleótido es diferente de los demás y esta diferencia es detectable por espectrometría de masas. Las mutaciones de un solo nucleótido en un fragmento pueden detectarse más fácilmente con MS que mediante electroforesis en gel sola. MALDI-TOF MS puede detectar más fácilmente las diferencias entre los fragmentos de ARN, por lo que los investigadores pueden secuenciar indirectamente el ADN con métodos basados ​​en MS convirtiéndolo primero en ARN.

La mayor resolución de los fragmentos de ADN que permiten los métodos basados ​​en la EM es de especial interés para los investigadores de la ciencia forense, ya que es posible que deseen encontrar polimorfismos de un solo nucleótido en muestras de ADN humano para identificar a los individuos. Estas muestras pueden estar muy degradadas, por lo que los investigadores forenses a menudo prefieren el ADN mitocondrial por su mayor estabilidad y aplicaciones para estudios de linaje. Se han utilizado métodos de secuenciación basados ​​en MS para comparar las secuencias de ADN mitocondrial humano de muestras en una base de datos de la Oficina Federal de Investigaciones y de huesos encontrados en fosas comunes de soldados de la Primera Guerra Mundial.

Los primeros métodos de terminación de cadena y TOF MS demostraron longitudes de lectura de hasta 100 pares de bases. Los investigadores no han podido superar este tamaño de lectura promedio; al igual que la secuenciación de terminación de cadena sola, la secuenciación de ADN basada en MS puede no ser adecuada para grandes proyectos de secuenciación de novo . Aun así, un estudio reciente utilizó lecturas de secuencia corta y espectroscopía de masas para comparar polimorfismos de un solo nucleótido en cepas patógenas de Streptococcus .

Secuenciación microfluídica de Sanger

En la secuenciación microfluídica de Sanger, la amplificación por termociclado completa de los fragmentos de ADN, así como su separación por electroforesis, se realiza en una sola oblea de vidrio (aproximadamente 10 cm de diámetro), lo que reduce el uso de reactivo y el costo. En algunos casos, los investigadores han demostrado que pueden aumentar el rendimiento de la secuenciación convencional mediante el uso de microchips. Aún será necesario realizar investigaciones para que este uso de la tecnología sea eficaz.

Técnicas basadas en microscopía

Este enfoque visualiza directamente la secuencia de moléculas de ADN mediante microscopía electrónica. La primera identificación de pares de bases de ADN dentro de moléculas de ADN intactas mediante la incorporación enzimática de bases modificadas, que contienen átomos de número atómico aumentado, visualización directa e identificación de bases marcadas individualmente dentro de una molécula de ADN sintética de 3272 pares de bases y un genoma viral de 7.249 pares de bases. ha sido demostrado.

Secuenciación RNAP

Este método se basa en el uso de ARN polimerasa (RNAP), que se adhiere a una perla de poliestireno . Un extremo del ADN que se va a secuenciar se une a otra perla, y ambas perlas se colocan en trampas ópticas. El movimiento de RNAP durante la transcripción acerca las perlas y cambia su distancia relativa, que luego se puede registrar con una resolución de un solo nucleótido. La secuencia se deduce en base a las cuatro lecturas con concentraciones más bajas de cada uno de los cuatro tipos de nucleótidos, de manera similar al método de Sanger. Se realiza una comparación entre regiones y la información de secuencia se deduce comparando las regiones de secuencia conocidas con las regiones de secuencia desconocidas.

Secuenciación de alto rendimiento de virus in vitro

Se ha desarrollado un método para analizar conjuntos completos de interacciones de proteínas utilizando una combinación de pirosecuenciación 454 y un método de presentación de ARNm de virus in vitro . Específicamente, este método une covalentemente proteínas de interés con los ARNm que las codifican y luego detecta las piezas de ARNm mediante PCR de transcripción inversa . A continuación, el ARNm se puede amplificar y secuenciar. El método combinado se tituló IVV-HiTSeq y se puede realizar en condiciones libres de células, aunque sus resultados pueden no ser representativos de las condiciones in vivo .

preparación de la muestra

El éxito de cualquier protocolo de secuenciación de ADN se basa en la extracción y preparación de la muestra de ADN o ARN a partir del material biológico de interés.

  • Una extracción de ADN exitosa producirá una muestra de ADN con hebras largas no degradadas.
  • Una extracción de ARN exitosa producirá una muestra de ARN que debe convertirse en ADN complementario (ADNc) mediante la transcriptasa inversa, una ADN polimerasa que sintetiza un ADN complementario basado en cadenas existentes de ARN de una manera similar a la de la PCR. El ADN complementario se puede procesar de la misma manera que el ADN genómico.

Según la tecnología de secuenciación que se utilice, las muestras resultantes de la extracción de ADN o de ARN requieren una preparación adicional. Para la secuenciación de Sanger, se requieren procedimientos de clonación o PCR antes de la secuenciación. En el caso de los métodos de secuenciación de próxima generación, se requiere la preparación de la biblioteca antes del procesamiento. La evaluación de la calidad y cantidad de ácidos nucleicos tanto después de la extracción como después de la preparación de la biblioteca identifica muestras degradadas, fragmentadas y de baja pureza y produce datos de secuenciación de alta calidad.

La naturaleza de alto rendimiento de las tecnologías actuales de secuenciación de ADN / ARN ha planteado un desafío para la ampliación del método de preparación de muestras. Se están utilizando varios instrumentos de manipulación de líquidos para la preparación de un mayor número de muestras con un menor tiempo de manipulación total:

empresa Manipuladores de líquidos / Automatización lower_mark_USD upper_mark_USD landing_url
Opentrons OpenTrons OT-2 $ 5.750 $ 20 000 https://www.opentrons.com/
Gilson Gilson Pipetmax $ 20 000 $ 40 000 https://gb.gilson.com/GBSV/system-pipetmax.html
Neotec Neotec EzMate $ 25 000 $ 45 000 http://neotec.co.il/pipetting-device/
Formulatrix Mantis Formulatrix $ 40 000 $ 60 000 https://formulatrix.com/liquid-handling-systems/mantis-liquid-handler/
Robótica Hudson Hudson Robotics SOLO $ 40 000 $ 50 000 https://hudsonrobotics.com/products/applications/automated-solutions-next-generation-sequencing-ngs/
Hamilton Hamilton Microlab NIMBUS $ 40 000 $ 80 000 https://www.hamiltoncompany.com/automated-liquid-handling/platforms/microlab-nimbus#specifications
TTP Labtech TTP Labtech Mosquito HV Genomics $ 45 000 $ 80 000 https://www.sptlabtech.com/products/liquid-handling/mosquito-hv-genomics/
Beckman Coulter Biomek 4000 $ 50 000 $ 65 000 https://www.mybeckman.uk/liquid-handlers/biomek-4000/b22640
Hamilton Hamilton Genomic STARlet $ 50 000 $ 100,000 https://www.hamiltoncompany.com/automated-liquid-handling/assay-ready-workstations/genomic-starlet
Eppendorf Eppendorf epMotion 5075t $ 95 000 $ 110 000 https://www.eppendorf.com/epmotion/
Beckman Coulter Beckman Coulter Biomek i5 $ 100,000 $ 150 000 https://www.beckman.com/liquid-handlers/biomek-i5
Hamilton Hamilton NGS STAR $ 100,000 $ 200 000 http://www.hamiltonrobotics.com/
PerkinElmer Estación de trabajo PerkinElmer Sciclone G3 NGS y NGSx $ 150 000 $ 220 000 https://www.perkinelmer.com/uk/product/sciclone-g3-ngs-workstation-cls145321
Agilent Agilent Bravo NGS $ 170 000 $ 290 000 https://www.agilent.com/en/products/automated-liquid-handling/automated-liquid-handling-applications/bravo-ngs
Beckman Coulter Beckman Coulter Biomek i7 $ 200 000 $ 250 000 https://www.beckman.com/liquid-handlers/biomek-i7
Labcyte Echo 525 Beckman Coulter Labcyte Echo 525 $ 260 000 $ 300 000 https://www.labcyte.com/products/liquid-handling/echo-525-liquid-handler
Tecan Tecan NGS $ 270 000 $ 350 000 https://lifesciences.tecan.com/ngs-sample-preparation

Iniciativas de desarrollo

Costo total de secuenciar un genoma humano a lo largo del tiempo según lo calcula el NHGRI .

En octubre de 2006, la Fundación X Prize estableció una iniciativa para promover el desarrollo de tecnologías de secuenciación del genoma completo , llamada Archon X Prize , con la intención de otorgar $ 10 millones al "primer equipo que puede construir un dispositivo y usarlo para secuenciar 100 genomas humanos en 10 días o menos, con una precisión de no más de un error por cada 100.000 bases secuenciadas, con secuencias que cubren con precisión al menos el 98% del genoma y con un costo recurrente de no más de $ 10.000 (EE.UU.) por genoma ".

Cada año, el Instituto Nacional de Investigación del Genoma Humano , o NHGRI, promueve subvenciones para nuevas investigaciones y desarrollos en genómica . Las subvenciones de 2010 y los candidatos de 2011 incluyen el trabajo continuo en metodologías de secuenciación de microfluidos, polonia y base pesada.

Desafíos computacionales

Las tecnologías de secuenciación descritas aquí producen datos sin procesar que deben ensamblarse en secuencias más largas, como genomas completos ( ensamblaje de secuencias ). Existen muchos desafíos computacionales para lograr esto, como la evaluación de los datos de secuencia sin procesar que se realiza mediante programas y algoritmos como Phred y Phrap . Otros desafíos tienen que ver con secuencias repetitivas que a menudo impiden ensamblajes completos del genoma porque ocurren en muchos lugares del genoma. Como consecuencia, muchas secuencias pueden no asignarse a cromosomas particulares . La producción de datos de secuencia sin procesar es solo el comienzo de su análisis bioinformático detallado. Sin embargo, se desarrollaron nuevos métodos para secuenciar y corregir errores de secuencia.

Leer recorte

A veces, las lecturas sin procesar producidas por el secuenciador son correctas y precisas solo en una fracción de su longitud. El uso de la lectura completa puede introducir artefactos en los análisis posteriores, como el ensamblaje del genoma, la llamada de SNP o la estimación de la expresión génica. Se han introducido dos clases de programas de recorte, basados ​​en las clases de algoritmos basados ​​en ventanas o de suma en ejecución. Esta es una lista parcial de los algoritmos de recorte actualmente disponibles, especificando la clase de algoritmo a la que pertenecen:

Leer algoritmos de recorte
Nombre del algoritmo Tipo de algoritmo Enlace
Cutadapt Suma corriente Cutadapt
ConDeTri Basado en ventana ConDeTri
ERNE-FILTRO Suma corriente ERNE-FILTRO
Recortadora de calidad FASTX Basado en ventana Recortadora de calidad FASTX
PRINSEQ Basado en ventana PRINSEQ
Trimmomatic Basado en ventana Trimmomatic
SolexaQA Basado en ventana SolexaQA
SolexaQA-BWA Suma corriente SolexaQA-BWA
Hoz Basado en ventana Hoz

Cuestiones éticas

La genética humana se ha incluido dentro del campo de la bioética desde principios de la década de 1970 y el crecimiento en el uso de la secuenciación del ADN (particularmente la secuenciación de alto rendimiento) ha introducido una serie de problemas éticos. Un tema clave es la propiedad del ADN de un individuo y los datos que se producen cuando se secuencia ese ADN. Con respecto a la molécula de ADN en sí, el principal caso legal sobre este tema, Moore v. Regents de la Universidad de California (1990) dictaminó que las personas no tienen derechos de propiedad sobre las células desechadas o cualquier beneficio obtenido con estas células (por ejemplo, como una patente patentada). línea celular ). Sin embargo, las personas tienen derecho al consentimiento informado con respecto a la extracción y el uso de células. Con respecto a los datos producidos a través de la secuenciación del ADN, Moore no otorga al individuo ningún derecho sobre la información derivada de su ADN.

A medida que la secuenciación del ADN se generaliza, el almacenamiento, la seguridad y el intercambio de datos genómicos también se han vuelto más importantes. Por ejemplo, una preocupación es que las aseguradoras pueden usar los datos genómicos de un individuo para modificar su cotización, dependiendo de la salud futura percibida del individuo en función de su ADN. En mayo de 2008, se firmó la Ley de No Discriminación por Información Genética (GINA) en los Estados Unidos, que prohíbe la discriminación basada en información genética con respecto al seguro médico y al empleo. En 2012, la Comisión Presidencial para el Estudio de Asuntos Bioéticos de EE. UU. Informó que la legislación de privacidad existente para los datos de secuenciación de ADN, como GINA y la Ley de Portabilidad y Responsabilidad del Seguro Médico, era insuficiente, y señaló que los datos de secuenciación del genoma completo eran particularmente sensibles, ya que podrían utilizarse para identificar no solo a la persona a partir de la cual se crearon los datos, sino también a sus familiares.

En la mayor parte de los Estados Unidos, el ADN que está "abandonado", como el que se encuentra en un sello o sobre lamido, una taza de café, un cigarrillo, un chicle, la basura doméstica o el cabello que se ha caído en una acera pública, se puede recolectar legalmente. y secuenciado por cualquier persona, incluida la policía, investigadores privados, opositores políticos o personas involucradas en disputas de paternidad. A partir de 2013, once estados tienen leyes que pueden interpretarse para prohibir el "robo de ADN".

También se han planteado cuestiones éticas por el uso cada vez mayor de pruebas de detección de variaciones genéticas, tanto en recién nacidos como en adultos, por parte de empresas como 23andMe . Se ha afirmado que la detección de variaciones genéticas puede ser dañina, aumentando la ansiedad en las personas que se ha descubierto que tienen un mayor riesgo de enfermedad. Por ejemplo, en un caso anotado en Time , los médicos que examinaban a un bebé enfermo en busca de variantes genéticas optaron por no informar a los padres de una variante no relacionada relacionada con la demencia debido al daño que causaría a los padres. Sin embargo, un estudio de 2011 en The New England Journal of Medicine ha demostrado que las personas que se someten a un perfil de riesgo de enfermedad no mostraron mayores niveles de ansiedad.

Ver también

Notas

Referencias

enlaces externos