Secuencia ADN - DNA sequencing


De Wikipedia, la enciclopedia libre

La secuenciación de ADN es el proceso de determinar el orden de los nucleótidos en el ADN . Incluye cualquier procedimiento o tecnología que se utiliza para determinar el orden de las cuatro bases: adenina , guanina , citosina y timina . El advenimiento de métodos rápidos de secuenciación de ADN se ha acelerado enormemente la investigación y el descubrimiento biológica y médica.

El conocimiento de las secuencias de ADN se ha convertido en indispensable para la investigación biológica básica, y en numerosos campos aplicados, tales como el diagnóstico médico , la biotecnología , biología forense , virología y biológicos sistemática . La velocidad rápida de secuenciación alcanzado con la tecnología moderna de secuenciación de ADN ha sido instrumental en la secuencia de las secuencias completas de ADN, o genomas , de numerosos tipos y especies de vida, incluyendo el genoma humano y otras secuencias de ADN completas de muchos animales, plantas, y microbiana especies.

Un ejemplo de los resultados de la secuenciación automática de ADN de terminación de cadena.

Las primeras secuencias de ADN se obtuvieron en la década de 1970 por investigadores académicos utilizando métodos laboriosos basado en cromatografía bidimensional . Tras el desarrollo de fluorescencia -basado métodos de secuenciación con un secuenciador de ADN , secuenciación del ADN se ha convertido en más fácil y órdenes de magnitud más rápido.

Contenido

aplicaciones

La secuenciación de ADN se puede utilizar para determinar la secuencia de individuales genes , regiones genéticas más grandes (es decir, grupos de genes o operones ), cromosomas completos, o genomas enteros de cualquier organismo. La secuenciación del ADN es también la forma más eficiente de indirectamente secuencia de ARN o proteínas (a través de sus marcos de lectura abiertos ). De hecho, la secuenciación del ADN se ha convertido en una tecnología clave en muchas áreas de la biología y otras ciencias como la medicina, la medicina forense , y la antropología .

Biología Molecular

La secuenciación se utiliza en la biología molecular para estudiar genomas y las proteínas que codifican. La información obtenida mediante secuenciación permite a los investigadores a identificar cambios en los genes, asociaciones con enfermedades y fenotipos, e identificar posibles dianas de medicamentos.

Biología evolucionaria

Dado que el ADN es una macromolécula informativa en términos de transmisión de una generación a otra, la secuenciación de ADN se utiliza en la biología evolutiva para estudiar cómo los diferentes organismos están relacionados y la forma en que se desarrolló.

La metagenómica

El campo de la metagenómica implica la identificación de los organismos presentes en una masa de agua, aguas residuales , suciedad, residuos filtrados desde el aire, o muestras de frotis de organismos. Sabiendo que los organismos están presentes en un entorno particular es crítica para la investigación en ecología , epidemiología , microbiología , y otros campos. Secuenciación permite a los investigadores determinar qué tipos de microbios pueden estar presentes en un microbioma , por ejemplo.

Medicina

Los técnicos médicos pueden secuenciar los genes (o, en teoría, genomas completos) de los pacientes para determinar si existe riesgo de enfermedades genéticas. Esta es una forma de pruebas genéticas , aunque algunas pruebas genéticas pueden no implicar a la secuenciación del ADN.

Los forenses

La secuenciación de ADN se puede utilizar junto con perfiles de ADN métodos para la identificación forense y pruebas de paternidad . Las pruebas de ADN ha evolucionado enormemente en las últimas décadas para enlazar en última instancia, una impresión de ADN a lo que está bajo investigación. Los patrones de ADN en la huella digital, saliva, folículos pilosos, etc. separan de forma única cada organismo vivo de otro. Las pruebas de ADN es una técnica que puede detectar genomas específicas en una cadena de ADN para producir un patrón único e individualizado. Todo organismo vivo jamás creado tiene un uno de un patrón de tipo ADN, lo que puede determinarse mediante pruebas de ADN. Es extremadamente raro que dos personas que tengan exactamente el mismo patrón de ADN, por lo tanto, las pruebas de ADN es un gran éxito.

Las cuatro bases canónicas

La estructura canónica de ADN tiene cuatro bases: timina (T), adenina (A), citosina (C), y guanina (G). La secuenciación de ADN es la determinación de la orden físico de estas bases en una molécula de ADN. Sin embargo, hay muchas otras bases que pueden estar presentes en una molécula. En algunos virus (específicamente, bacteriófago ), citosina puede ser sustituido por metilo hidroxi o hidroxi citosina metil glucosa. En ADN de mamífero, bases variante con metilo grupos o fosfosulfato pueden encontrarse. Dependiendo de la técnica de secuenciación, una modificación particular, por ejemplo, la 5mC ( 5 metil citosina ) común en los seres humanos, puede o no puede ser detectado.

Historia

Descubrimiento de la estructura y función del ADN

El ácido desoxirribonucleico ( ADN ) se descubrió primero y se aisló por Friedrich Miescher en 1869, pero permaneció poco estudiada durante muchas décadas porque las proteínas, en lugar de ADN, se pensaba que para mantener el modelo genético para la vida. Esta situación cambió después de 1944 como resultado de algunos experimentos de Oswald Avery , Colin MacLeod , y Maclyn McCarty demuestran que el ADN purificado podría cambiar una cepa de bacterias en otra. Esta fue la primera vez que el ADN se mostró capaz de transformar las propiedades de las células.

En 1953, James Watson y Francis Crick invocados su doble hélice modelo de ADN, basado en rayos X cristalizadas estructuras siendo estudiado por Rosalind Franklin - y sin abono ella. Según el modelo, el ADN se compone de dos hebras de nucleótidos en espiral alrededor de la otra, unidas entre sí por enlaces de hidrógeno y que se ejecutan en direcciones opuestas. Cada hebra se compone de cuatro nucleótidos complementarios - adenina (A), citosina (C), guanina (G) y timina (T) - con una A en una hebra siempre emparejado con T en el otro, y C siempre emparejado con G. propusieron una estructura de este tipo permite a cada hebra que se utiliza para reconstruir la otra, una idea central para la transmisión de la información hereditaria entre generaciones.

Frederick Sanger , pionero de secuenciación. Sanger es uno de los pocos científicos que fue galardonado con dos premios Nobel, uno para la secuenciación de proteínas , y el otro para la secuenciación del ADN.

La base de proteínas de secuenciación fue colocada primero por el trabajo de Frederick Sanger que por 1955 había completado la secuencia de todos los aminoácidos en la insulina , una pequeña proteína secretada por el páncreas. Esto proporcionó la primera evidencia concluyente de que las proteínas eran entidades químicas con un patrón molecular específico en lugar de una mezcla aleatoria de material suspendido en el fluido. El éxito de Sanger en insulina secuenciación cristalógrafos de rayos x, incluyendo Watson y Crick que por ahora estaban tratando de comprender cómo el ADN dirige la formación de proteínas dentro de una célula electrificada en gran medida. Pronto después de asistir a una serie de conferencias dadas por Frederick Sanger en octubre de 1954, Crick comenzó a desarrollar una teoría que argumenta que la disposición de los nucleótidos en el ADN determinó la secuencia de aminoácidos en proteínas que a su vez ayudaron a determinar la función de una proteína. Publicó esta teoría en 1958.

la secuenciación de ARN

Secuenciación de RNA fue una de las primeras formas de secuenciación de nucleótidos. El principal punto de referencia de la secuencia de ARN es la secuencia de la primera gen completo y el genoma completo de bacteriófago MS2 , identificado y publicado por Walter Fiers y sus colaboradores en la Universidad de Gante ( Gante , Bélgica ), en 1972 y 1976. La secuenciación del ARN tradicional métodos requieren la creación de un ADNc molécula que debe ser secuenciado.

métodos de secuenciación de ADN Early

El primer método para la determinación de secuencias de ADN implicada una estrategia de extensión de cebador específica de la ubicación establecida por Ray Wu en la Universidad de Cornell en 1970. catálisis ADN polimerasa y el etiquetado de nucleótidos específica, ambos de los cuales ocupan un lugar destacado en los esquemas de secuenciación actuales, se utilizaron para secuenciar los extremos cohesivos del ADN del fago lambda. Entre 1970 y 1973, Wu, R Padmanabhan y colegas demostraron que este método se puede emplear para determinar cualquier secuencia de ADN usando cebadores específicos de la ubicación sintéticos. Frederick Sanger entonces adoptó esta estrategia de extensión del cebador para desarrollar más métodos rápidos de secuenciación de ADN en el MRC Center , Cambridge , Reino Unido y publicó un método para "secuenciación de ADN con inhibidores de terminación de cadena" en 1977. Walter Gilbert y Allan Maxam en Harvard también desarrollaron métodos de secuenciación, incluyendo una para "secuenciación de ADN por la degradación química". En 1973, Gilbert y Maxam informaron de la secuencia de 24 pares de bases utilizando un método conocido como análisis errante in situ. Los avances en la secuenciación fueron ayudados por el desarrollo simultáneo de ADN recombinante tecnología, las muestras de ADN a ser aislados de fuentes distintas de virus permitiendo.

La secuenciación de genomas completos

El genoma 5.386 pb de φX174 bacteriófago . Cada bloque de color representa un gen.

El primer genoma completo de ADN a ser secuenciado fue el de φX174 bacteriófago en 1977. Consejo de Investigación Médica científicos descifraron la secuencia completa del ADN del virus de Epstein-Barr en 1984, encontrando que contenía 172,282 nucleótidos. La finalización de la secuencia de marcado un punto de inflexión significativo en la secuenciación de ADN, ya que se logró con ningún conocimiento perfil genético previo del virus.

Un método no radiactivo para la transferencia de las moléculas de ADN de mezclas de reacción de secuenciación sobre una matriz de inmovilización durante la electroforesis fue desarrollado por Pohl y colaboradores en la década de 1980. Seguido por la comercialización del secuenciador de ADN "Direct-Blotting-Electroforesis-System GATC 1500" por GATC Biotech , que fue usado intensivamente en el marco del programa de secuenciación del genoma de la UE, la secuencia de ADN completa de la levadura Saccharomyces cerevisiae cromosoma II. Leroy E. capilla 'laboratorio s en el Instituto de Tecnología de California anunció la primera máquina de secuenciación de ADN semi-automatizado en 1986. Esto fue seguido por Applied Biosystems ' comercialización de la primera máquina de secuenciación totalmente automatizado, el ABI 370, en 1987 y por Dupont de Génesis 2000 que utiliza una nueva técnica de marcaje fluorescente que permite los cuatro didesoxinucleótidos para ser identificado en un solo carril. En 1990, los EE.UU. Institutos Nacionales de Salud (NIH) habían comenzado los ensayos de secuenciación a gran escala contra Mycoplasma capricolum , Escherichia coli , Caenorhabditis elegans , y Saccharomyces cerevisiae a un costo de US $ 0,75 por base. Mientras tanto, la secuenciación de humanos de cDNA secuencias denominadas etiquetas de secuencias expresadas comenzó en Craig Venter laboratorio 's, un intento de capturar la fracción de codificación del genoma humano . En 1995, Venter, Hamilton Smith , y sus colegas en el Instituto de Investigación Genómica (TIGR) publicó el primer genoma completo de un organismo de vida libre, la bacteria Haemophilus influenzae . El cromosoma circular contiene 1,830,137 bases y su publicación en la revista Science marcó el primer uso publicada de escopeta secuenciación de todo el genoma, lo que elimina la necesidad de que los esfuerzos iniciales de mapeo.

Por 2001, los métodos de secuenciación de escopeta se habían utilizado para producir un proyecto de secuencia del genoma humano.

de secuenciación de alto rendimiento (HTS) métodos

Varios de los nuevos métodos para la secuenciación de ADN se desarrollaron en los mediados a finales de 1990 y se llevaron a cabo en comerciales secuenciadores de ADN para el año 2000. En conjunto, estos fueron llamados los "próxima generación" o "segunda generación" de secuenciación (NGS) métodos, con el fin para distinguirlos de los métodos anteriores mencionados, como la secuenciación de Sanger. En contraste con la primera generación de secuenciación, la tecnología NGS se caracteriza típicamente por ser altamente escalable, permitiendo que todo el genoma que se secuencia a la vez. Por lo general, esto se logra mediante la fragmentación del genoma en trozos pequeños, al azar de muestreo para un fragmento, y secuenciación usando uno de una variedad de tecnologías, tales como los descritos a continuación. Un genoma entero es posible debido a que múltiples fragmentos se secuencian a la vez (dándole el nombre de secuenciación "masivamente paralelo") en un proceso automatizado.

La tecnología ha permitido a NGS enormemente los investigadores a buscar entendimiento sobre la salud, antropólogos para investigar los orígenes del hombre, y es catalizar la " medicina personalizada movimiento". Sin embargo, también ha abierto la puerta a un mayor margen de error. Hay muchas herramientas de software para llevar a cabo el análisis computacional de los datos de NGS, cada uno con su propio algoritmo. Incluso los parámetros dentro de un paquete de software pueden cambiar el resultado del análisis. Además, las grandes cantidades de datos producidos por la secuenciación del ADN también han requerido el desarrollo de nuevos métodos y programas para análisis de secuencias. Varios esfuerzos para desarrollar estándares en el campo de NGS se han tratado de abordar estos retos, la mayoría de los cuales han sido los esfuerzos a pequeña escala que surgen de los laboratorios individuales. Más recientemente, una organizada, esfuerzo grande, financiado por la FDA ha culminado en la BioCompute estándar.

El 26 de octubre de 1990, Roger Tsien , Pepi Ross, Margaret Fahnestock y Allan J Johnston presentaron una patente que describe paso a paso ( "base-por-base") secuenciación con extraíbles 3' bloqueadores en arrays de ADN (blots y moléculas de ADN individuales). En 1996, Pål Nyrén y su alumno Mostafa Ronaghi en el Instituto Real de Tecnología de Estocolmo publicó su método de pirosecuenciación .

El 1 de abril de 1997, Pascal Mayer y Laurent Farinelli presentarse patentes a la Organización Mundial de la Propiedad Intelectual que describen la secuenciación del ADN de colonias. La preparación de la muestra de ADN y al azar superficie-PCR arraying métodos descritos en esta patente, acoplado a Roger Tsien et del al. "Base-por-base" método de secuenciación, ahora está implementado en Illumina secuenciadores genoma Hi-Seq 's.

En 1998, Phil Green y Brent Ewing de la Universidad de Washington describieron su puntuación de calidad Phred para el análisis de datos de secuenciador, una técnica de análisis histórico que ganó la adopción generalizada, y que sigue siendo la medida más común para evaluar la precisión de una plataforma de secuenciación.

Lynx Terapéutica publicados y comercializados secuenciación de firma masiva en paralelo (MPSS), en 2000. Este método incorporado un paralelizado, adaptador / ligación mediada, la tecnología de secuenciación basado en perlas y sirvió como el primer método de secuenciación disponible comercialmente "próxima generación", aunque no secuenciadores de ADN fueron vendidos a laboratorios independientes.

Los métodos básicos

secuenciación de Maxam-Gilbert

Allan Maxam y Walter Gilbert publicaron un método de secuenciación de DNA en 1977 basado en la modificación química de ADN y la posterior escisión en bases específicas. También conocido como secuenciación química, este método permitió muestras purificadas de ADN de doble cadena a ser utilizados sin clonación adicional. El uso de este método de marcaje radiactivo y su complejidad técnica desalentado el uso extensivo después se han hecho mejoras en los métodos de Sanger.

secuenciación de Maxam-Gilbert requiere marcaje radioactivo en un 5' extremo del ADN y la purificación del fragmento de ADN a secuenciar. El tratamiento químico genera entonces se rompe en una pequeña proporción de una o dos de las cuatro bases de nucleótidos en cada uno de cuatro reacciones (G, A + G, C, C + T). La concentración de los productos químicos modificadores es controlado para introducir en promedio una modificación por molécula de ADN. De este modo se genera una serie de fragmentos marcados, desde el extremo radiomarcado al primer sitio "corte" en cada molécula. Los fragmentos en las cuatro reacciones se someten a electroforesis lado a lado en geles desnaturalizantes de acrilamida para la separación de tamaño. Para visualizar los fragmentos, el gel se expuso a una película de rayos X para la autorradiografía, produciendo una serie de bandas oscuras corresponden cada una a un fragmento de ADN marcado radiactivamente, de la que la secuencia puede deducirse.

métodos de terminación de cadena

El método de terminación de cadena desarrollado por Frederick Sanger y colaboradores en 1977 pronto se convirtió en el método de elección, debido a su facilidad y fiabilidad relativa. Cuando inventado, el método de la cadena-terminador utiliza un menor número de productos químicos tóxicos y menores cantidades de radiactividad que el método de Maxam y Gilbert. Debido a su relativa facilidad, el método de Sanger era pronto automatizado y fue el método utilizado en la primera generación de secuenciadores de ADN .

Secuenciación de Sanger es el método que ha prevalecido desde la década de 1980 hasta mediados de la década de 2000. Durante ese período, se hicieron grandes avances en la técnica, tales como el marcaje fluorescente, electroforesis capilar, y la automatización en general. Estos avances permitieron mucho más eficiente secuenciación, lo que lleva a costos más bajos. El método de Sanger, en forma de producción en masa, es la tecnología que produjo el primer genoma humano en 2001, marcando el comienzo de la edad de la genómica . Sin embargo, más tarde en la década, radicalmente diferentes enfoques llegaron al mercado, con lo que el coste por genoma por debajo de $ 100 millones en 2001 a $ 10.000 en 2011.

Métodos avanzados y de novo secuenciación

El ADN genómico se fragmenta en piezas al azar y se clona como una biblioteca bacteriana. ADN a partir de clones bacterianos individuales es secuenciado y la secuencia se ensambla mediante el uso de la superposición de las regiones de ADN. (Clic para expandir)

Secuenciación a gran escala a menudo tiene como objetivo la secuenciación de piezas de ADN muy largas, tales como enteros cromosomas , aunque la secuenciación a gran escala también se puede utilizar para generar un gran número de secuencias cortas, tales como se encuentran en la presentación en fagos . Para objetivos más largos, tales como cromosomas, enfoques comunes consisten en el corte (con enzimas de restricción ) o de cizallamiento (con fuerzas mecánicas) grandes fragmentos de ADN en fragmentos de ADN más cortos. El ADN fragmentado puede entonces ser clonado en un vector de ADN y se amplificó en un huésped bacteriano tal como Escherichia coli . Fragmentos cortos de ADN purificadas a partir de colonias bacterianas individuales se secuencian individualmente y ensambladas electrónicamente en una secuencia larga, contigua. Los estudios han demostrado que la adición de una etapa de selección de tamaño para recoger los fragmentos de ADN de tamaño uniforme puede mejorar la eficiencia de secuenciación y la precisión del conjunto de genoma. En estos estudios, dimensionamiento automatizado ha demostrado ser más reproducible y preciso que dimensionamiento gel manual.

El término " de novo secuenciación" se refiere específicamente a los métodos utilizados para determinar la secuencia de ADN con ninguna secuencia previamente conocida. De novo se traduce del latín como "desde el principio". Las lagunas en la secuencia de ensamblado se pueden llenar por paseo con cebador . Las diferentes estrategias tienen diferentes ventajas y desventajas en la velocidad y precisión; métodos de escopeta se utilizan a menudo para la secuenciación de grandes genomas, pero su montaje es complejo y difícil, en particular con secuencia se repite a menudo causan deficiencias en genoma de montaje.

La mayoría de los enfoques de secuenciación utilizan un in vitro etapa de clonación para amplificar las moléculas individuales de ADN, debido a que sus métodos de detección molecular no son lo suficientemente sensibles para la secuenciación de una sola molécula. Emulsión PCR aislados de moléculas de ADN individuales junto con los granos con capa de imprimación en gotitas acuosas dentro de una fase de aceite. Una reacción en cadena de la polimerasa (PCR) entonces cubre cada perla con copias clonales de la molécula de ADN seguido de inmovilización para la secuenciación posterior. Emulsión PCR se utiliza en los métodos desarrollados por Marguilis et al. (comercializado por 454 Life Sciences ), Shendure y Porreca et al. (también conocido como " secuenciación Polony ") y secuenciación SóLIdAS , (desarrollado por Agencourt , después de Applied Biosystems , ahora Life Technologies ). Emulsión PCR también se utiliza en las plataformas GemCode y cromo desarrollados por 10x Genómica.

secuenciación shotgun

secuenciación Shotgun es un método de secuenciación diseñado para el análisis de secuencias de ADN más largo que 1000 pares de bases, hasta e incluyendo cromosomas enteros. Este método requiere el ADN diana a ser roto en fragmentos aleatorios. Después de secuenciar fragmentos individuales, las secuencias se pueden volver a montar sobre la base de sus regiones superpuestas.

puente de PCR

Otro método para in vitro de amplificación clonal es puente PCR, en la que los fragmentos se amplifican a cebadores unidos a una superficie sólida y forman " colonias de ADN " o "clusters de ADN". Este método se utiliza en los Illumina Genome Analyzer secuenciadores . Métodos Single-molécula, tal como la desarrollada por Quake Stephen laboratorio 's (más tarde comercializado por Helicos ) son una excepción: utilizan fluoróforos brillantes y excitación láser para detectar eventos de adición de base a partir de moléculas de ADN individuales fijos a una superficie, eliminando la necesidad de amplificación molecular.

métodos de alta rendimiento

Multiple secuencia, fragmentada lee deben ser montados juntos sobre la base de sus áreas superpuestas.

De alto rendimiento (antes "próxima generación") secuenciación se aplica a la secuenciación del genoma, la resecuenciación del genoma, transcriptoma de perfiles ( RNA-Seq ), las interacciones ADN-proteína ( ChIP-secuenciación ), y epigenoma caracterización. Resequencing es necesario, porque el genoma de un individuo de una especie no indicará todas las variaciones del genoma entre otros individuos de la misma especie.

La gran demanda de secuenciación de bajo costo ha impulsado el desarrollo de las tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias de forma simultánea. Tecnologías de secuenciación de alto rendimiento están destinados a bajar el coste de la secuenciación de ADN más allá de lo que es posible con los métodos de colorante-terminador estándar. En la secuenciación de ultra-alto rendimiento tanto como 500.000 operaciones de secuenciación por síntesis se pueden ejecutar en paralelo.

Comparación de los métodos de secuenciación de alto rendimiento
Método leer longitud Precisión (no solo de lectura consenso) Lee por ejecución Tiempo por ejecución Costo por 1 millón de bases (en US $) ventajas desventajas
Sola molécula en tiempo real secuenciación (Pacific Biosciences) 30.000 pb ( N50 );

longitud máxima de lectura> 100.000 bases

87% de precisión en bruto de lectura 500000 por Sequel celular SMRT, 10-20 gigabases 30 minutos a 20 horas $ 0.05- $ 0,08 Rápido. Detecta 4MC, 5mC, 6 mA. rendimiento moderado. El equipo puede ser muy costoso.
Ion semiconductor (Ion Torrent secuenciación) hasta 600 pb 99,6% hasta 80 millones 2 horas $ 1 equipo menos costoso. Rápido. errores homopolímero.
Pirosecuenciación (454) 700 pb 99,9% 1 millón 24 horas $ 10 Tamaño de lectura larga. Rápido. Carreras son caros. errores homopolímero.
La secuenciación por síntesis (Illumina) MiniSeq, NextSeq: 75-300 pb;

MiSeq: 50-600 pb;

HiSeq 2500: pb 50-500;

HiSeq 3/4000: 50-300 pb;

HiSeq X: 300 pb

99,9% (Phred30) MiniSeq / MiSeq: 1-25 millones de dólares;

NextSeq: 130-00 millones de dólares;

HiSeq 2500: 300 millones a 2000 millones;

HiSeq 3/4000 2,5 mil millones;

HiSeq X: 3 mil millones

1 a 11 días, dependiendo de secuenciador y especifica la distancia leer $ 0,05 a $ 0,15 Posibilidad de alto rendimiento secuencia, dependiendo de modelo de secuenciador y aplicación deseada. El equipo puede ser muy costoso. Requiere altas concentraciones de ADN.
síntesis combinatoria sonda de anclaje (cPAS- BGI / MGI) BGISEQ-50: 35-50bp;

MGISEQ 200: 50-200bp;

BGISEQ-500, MGISEQ-2000: 50-300bp

99,9% (Phred30) BGISEQ-50: 160M;

MGISEQ 200: 300m;

BGISEQ-500: 1300M por celda de flujo;

MGISEQ-2000: celda de flujo 375 millones de FCS, célula de flujo 1500M FCL por célula de flujo.

1 a 9 días, dependiendo de instrumento, lea longitud y el número de células de flujo ejecutar a la vez. $ 0.035- $ 0,12
Secuenciación por ligación (secuenciación sólido) 50 + 35 o 50 + 50 pb 99,9% 1,2-1400000000 1 a 2 semanas $ 0,13 Bajo coste por base. Más lento que otros métodos. Tiene problemas de secuencias secuencias palindrómicas.
La secuenciación de nanoporos Depende de la preparación de la biblioteca, no el dispositivo, por lo que el usuario elige la longitud de lectura. (Informó de hasta 500 kb) ~ 92-97% de lectura única depende de la longitud de lectura seleccionado por el usuario los datos se transmiten en tiempo real. Elija 1 min a 48 hrs $ 500-999 por cada celda de flujo, dependiente del coste base de expt persona lee más larga. comunidad de usuarios de acceso. Portátil (tamaño de la palma). rendimiento más bajo que otras máquinas, solo leer precisión en los años 90.
terminación de la cadena (secuenciación de Sanger) 400 a 900 pb 99,9% N / A 20 minutos a 3 horas $ 2400 Útil para muchas aplicaciones. Más caro y poco práctico para los proyectos de secuenciación más grandes. Este método también requiere que el tiempo paso de clonación de plásmido o PCR.

secuenciación de firma masiva en paralelo (MPSS)

La primera de las tecnologías de secuenciación de alto rendimiento, firma secuenciación masiva en paralelo (o MPSS), fue desarrollado en la década de 1990 en Lynx Therapeutics, una compañía fundada en 1992 por Sydney Brenner y Sam Eletr . MPSS era un método basado en perlas que utiliza un enfoque complejo de ligación adaptador seguido de decodificación de adaptador, la lectura de la secuencia en incrementos de cuatro nucleótidos. Este método hizo susceptibles al sesgo o pérdida de secuencias específicas de secuencia específica. Debido a que la tecnología era tan complejo, MPSS solamente se realizó 'de la casa' por Lynx Terapéutica y no hay máquinas de secuenciación de ADN fueron vendidos a laboratorios independientes. Lynx Terapéutica se fusionó con Solexa (posteriormente adquirida por Illumina ) en 2004, lo que lleva al desarrollo de secuenciación por síntesis, un enfoque más simple adquirido de Manteia Medicina Predictiva , que dictó MPSS obsoleta. Sin embargo, las propiedades esenciales de la salida MPSS eran típicas de tipos posteriores de datos de alto rendimiento, incluyendo cientos de miles de secuencias cortas de ADN. En el caso de MPSS, estos fueron utilizados típicamente para la secuenciación de cDNA para las mediciones de la expresión génica de niveles.

secuenciación polony

La secuenciación Polony método, desarrollado en el laboratorio de George M. Church en Harvard, fue uno de los primeros sistemas de secuenciación de alto rendimiento y se usó para secuenciar un total E. coli genoma en 2005. Se combinó una biblioteca-tag emparejado in vitro con emulsión de PCR, un microscopio automatizado, y la química de secuenciación basado en ligadura para secuenciar un E. coli genoma en una precisión de> 99,9999% y un coste de aproximadamente 1/9 el de secuenciación de Sanger. La tecnología fue licenciada a Agencourt Biosciences, posteriormente se salió en Agencourt genómica personal, y, finalmente, incorporado en el Applied Biosystems plataforma sólida. Applied Biosystems fue posteriormente adquirida por Life Technologies , ahora parte de Thermo Fisher Scientific .

454 pirosecuenciación

Una versión paralelizada de pirosecuenciación fue desarrollado por 454 Life Sciences , que desde entonces ha sido adquiridas por Roche Diagnostics . El método amplifica ADN dentro de las gotitas de agua en una solución de aceite (emulsión PCR), con cada gota que contiene un molde de ADN único conectado a una única perla con capa de imprimación que forma entonces una colonia clonal. La máquina de secuenciación contiene muchos picolitros pozos -VOLUME que contienen cada uno una única perla y secuenciación enzimas. Pirosecuenciación utiliza luciferasa para generar luz para la detección de los nucleótidos individuales añadidos al ADN naciente, y los datos combinados se usan para generar la secuencia lee . Esta tecnología proporciona la longitud de lectura intermedio y el precio por base de comparación con la secuenciación de Sanger en un extremo y Solexa y sólida en el otro.

Illumina (Solexa) secuenciación

Solexa , ahora parte de Illumina , fue fundada por Shankar Balasubramanian y David Klenerman en 1998, y ha desarrollado un método de secuenciación basado en la tecnología de tinte terminadores reversible, y polimerasas de ingeniería. El concepto de la química reversible terminado fue inventado por Bruno Canard y Simon Sarfati en el Instituto Pasteur de París. Fue desarrollado internamente en Solexa por los nombrados en las patentes pertinentes. En 2004, la compañía adquirió Solexa Manteia Medicina Predictiva con el fin de obtener una tecnología de secuenciación masiva en paralelo inventado en 1997 por Pascal Mayer y Laurent Farinelli. Se basa en "Clusters de ADN" o "colonias de ADN", que implica la amplificación clonal de ADN sobre una superficie. La tecnología de agrupación se co-adquirió con Lynx Terapéutica de California. Solexa Ltd más tarde se fusionó con Lynx para formar Solexa Inc.

Un Illumina HiSeq 2500 secuenciador

En este método, las moléculas de ADN y los cebadores se unen primero en un portaobjetos o celda de flujo y se amplificaron con polimerasa de modo que las colonias de ADN clonales locales, se forman más tarde acuñados "clusters de ADN". Para determinar la secuencia, se añaden cuatro tipos de bases terminador reversible (RT-bases) y los nucleótidos no incorporados se eliminan por lavado. Una cámara toma imágenes de los marcados con fluorescencia nucleótidos. A continuación, el colorante, junto con el terminal bloqueador 3' , se elimina químicamente a partir del ADN, lo que permite para el siguiente ciclo para comenzar. A diferencia de pirosecuenciación, las cadenas de ADN se extienden en un nucleótido puede ser realizada en un momento retrasado un tiempo de adquisición e imagen, lo que permite matrices muy grandes colonias de ADN para ser capturado por una secuencia de imágenes tomadas desde una única cámara.

Un secuenciador Illumina MiSeq

Desacoplar la reacción enzimática y la captura de la imagen permite para un rendimiento óptimo y la capacidad de secuenciación teóricamente ilimitado. Con una configuración óptima, el rendimiento del instrumento en última instancia alcanzable es así dictado únicamente por la tasa de conversión de analógico a digital de la cámara, multiplicado por el número de cámaras y dividido por el número de píxeles por colonia de ADN necesarias para la visualización de manera óptima (aproximadamente 10 píxeles / colonia). En 2012, con las cámaras que funcionan a velocidades de conversión A / D de más de 10 MHz y la óptica disponibles, de fluidos y enzimáticos, el rendimiento puede ser múltiplos de 1 millón de nucleótidos / segundo, que corresponde aproximadamente a 1 equivalente del genoma humano a 1x cobertura por hora por instrumento, y 1 del genoma humano re-secuenciados (a aprox. 30x) por día por instrumento (equipado con una sola cámara).

síntesis de anclaje sonda combinatoria (CPAs)

Este método es una modificación actualizado a la tecnología combinatoria sonda de anclaje ligadura (CPAL) descrito por Complete Genomics que desde entonces ha pasado a formar parte de los chinos genómica empresa BGI en 2013. Las dos compañías han perfeccionado la tecnología para permitir una lectura más largos, las reducciones del tiempo de reacción y una mayor rapidez de los resultados. Además, los datos se generan ahora como contiguos de longitud completa se lee en el formato de archivo estándar FASTQ y se puede utilizar tal cual en la mayoría de las tuberías de análisis bioinformática cortos basados en lectura.

Las dos tecnologías que forman la base de esta tecnología de secuenciación de alto rendimiento son nanoballs de ADN (DNB) y matrices de modelado para la fijación Nanoball a una superficie sólida. Nanoballs de ADN están simplemente formadas por desnaturalización bibliotecas de doble cadena, adaptador se ligó y ligando el capítulo adelante sólo para un oligonucleótido de puente para formar un círculo ssDNA. Copias fieles de los círculos que contienen el inserto de ADN se producen utilizando amplificación por círculo rodante que genera aproximadamente 300-500 copias. La larga cadena de ssDNA se pliega sobre sí misma para producir una estructura Nanoball tridimensional que es de aproximadamente 220 nm de diámetro. Haciendo DNBS reemplaza la necesidad de generar copias de PCR de la biblioteca en la celda de flujo y como tal puede eliminar una gran proporción de duplicado lee, la ligadura de adaptador del adaptador y PCR errores inducidos.

Un secuenciador BGI MGISEQ-2000RS

La disposición según patrón de puntos con carga positiva se fabrica a través de técnicas de fotolitografía y ataque químico seguido de modificación química para generar una célula de flujo de secuenciación. Cada punto en la celda de flujo es de aproximadamente 250 nm de diámetro, están separados por 700 nm (centro a centro) y permite una fácil unión de una sola carga negativa DNB a la celda de flujo y reduciendo así bajo o sobre-agrupación en la celda de flujo.

La secuenciación se lleva a cabo a continuación mediante la adición de una sonda de oligonucleótido que se une en combinación a sitios específicos dentro de la DNB. La sonda actúa como un ancla que permite entonces que uno de los cuatro, nucleótidos marcados individuales inactivada en forma reversible para unirse después de fluir a través de la celda de flujo. los nucleótidos no unidos son lavados antes de excitación láser de las etiquetas pegadas a continuación emitir fluorescencia y la señal es capturada por las cámaras que se convierte en una salida digital para la llamada base. La base adjunto tiene su terminador y la etiqueta escindido químicamente a la finalización del ciclo. El ciclo se repite con otro flujo de gratuitas nucleótidos, marcados a través de la celda de flujo para permitir que el siguiente nucleótido para atar y tener su señal capturada. Este proceso se completa un número de veces (por lo general 50 a 300 veces) para determinar la secuencia de la pieza insertada de ADN a una velocidad de aproximadamente 40 millones de nucleótidos por segundo como de 2.018.

secuenciación SóLIdAS

preparación de biblioteca para la plataforma sólida

Applied Biosystems '(ahora un Life Technologies marca) sólida tecnología emplea la secuenciación mediante ligadura . Aquí, una piscina de todos los posibles oligonucleótidos de una longitud fija están etiquetados según la posición secuenciada. Los oligonucleótidos se reasociaron y se ligaron; la ligadura preferencial por la ADN ligasa para emparejar secuencias de resultados en un informativo señal del nucleótido en esa posición. Antes de la secuenciación, el ADN se amplifica por PCR en emulsión. Las perlas resultantes, cada uno copias individuales que contienen de la misma molécula de ADN, se depositan sobre un portaobjetos de vidrio. El resultado es secuencias de cantidades y longitudes comparable a la secuenciación Illumina. Esta secuenciación mediante ligadura método se ha informado que tienen algún problema de secuenciación de secuencias palindrómicas.

secuenciación semiconductor Ion Torrent

Ion Torrent Systems Inc. (ahora propiedad de Life Technologies ) desarrolló un sistema basado en el uso de química de secuenciación estándar, pero con una novela, sistema de detección basado en semiconductor. Este método de secuenciación se basa en la detección de iones de hidrógeno que se libera durante la polimerización de ADN , en contraposición a los métodos ópticos utilizados en otros sistemas de secuenciación. Un micropocillo que contiene una cadena de ADN plantilla para ser secuenciados se inunda con un único tipo de nucleótido . Si el nucleótido introducida es complementario al nucleótido que conduce plantilla se incorpora a la creciente cadena complementaria. Esto provoca la liberación de un ión hidrógeno que desencadena un sensor de iones hipersensible, lo que indica que se ha producido una reacción. Si homopolímero repeticiones están presentes en la secuencia molde, múltiples nucleótidos serán incorporados en un solo ciclo. Esto conduce a un número correspondiente de átomos de hidrógeno liberados y una señal electrónica proporcionalmente mayor.

La secuenciación de la plantilla TAGGCT con IonTorrent, PacBioRS y GridION

la secuenciación del ADN Nanoball

La secuenciación del ADN Nanoball es un tipo de tecnología de secuenciación de alto rendimiento utilizado para determinar toda la secuencia genómica de un organismo. La compañía Complete Genomics utiliza esta tecnología para muestras de secuencias presentadas por investigadores independientes. El método utiliza la replicación de círculo rodante para amplificar fragmentos pequeños de ADN genómico en nanoballs de ADN. Secuenciación Unchained por ligación se utiliza entonces para determinar la secuencia de nucleótidos. Este método de secuenciación de ADN permite que un gran número de nanoballs de ADN para ser secuenciados por ejecución y a bajas reactivos costos en comparación con otras plataformas de secuenciación de alto rendimiento. Sin embargo, sólo secuencias cortas de ADN se determinan a partir de cada Nanoball ADN que hace que el mapeo de la corto lee a un genoma de referencia difícil. Esta tecnología se ha utilizado para varios proyectos de secuenciación del genoma y está previsto para ser utilizado por más.

Heliscope secuenciación de una sola molécula

Secuenciación Heliscope es un método de secuenciación de una sola molécula desarrollada por Helicos Biosciences . Utiliza fragmentos de ADN con adaptadores cola poli-A añadidos que se unen a la superficie de la célula de flujo. Los próximos pasos implican secuenciación basada en extensión con lavados cíclicos de la celda de flujo con nucleótidos marcados con fluorescencia (un tipo de nucleótido a la vez, como con el método de Sanger). Las lecturas se realizan por el secuenciador Heliscope. El lee son cortos, con un promedio de 35 pb. En 2009, un genoma humano fue secuenciado utilizando el Heliscope, sin embargo, en 2012, la empresa quebró.

Individual tiempo real molécula (SMRT) secuenciación

Secuenciación SMRT se basa en la secuenciación por síntesis enfoque. El ADN se sintetiza en-modo cero guías de ondas (ZMWs) - pequeños recipientes bien como con las herramientas de captura situadas en el fondo del pozo. La secuenciación se realiza con el uso de la polimerasa no modificada (que se adjunta a la parte inferior ZMW) y los nucleótidos marcados con fluorescencia que fluyen libremente en la solución. Los pocillos se construyen de una manera que sólo se detecta la fluorescencia se produce por la parte inferior del pozo. La etiqueta fluorescente se separa del nucleótido después de su incorporación en la cadena de ADN, dejando una cadena de ADN no modificado. Según Pacific Biosciences (PacBio), el desarrollador de tecnología SMRT, esta metodología permite la detección de modificaciones de nucleótidos (tales como la metilación de citosina). Esto sucede a través de la observación de la cinética de la polimerasa. Este enfoque permite que se lee de 20.000 nucleótidos o más, con longitudes medias de lectura de 5 kilobases. En 2015, Pacific Biosciences anunció el lanzamiento de un nuevo instrumento de secuenciación denominado Sistema de Sequel, con 1 millón ZMWs en comparación con 150.000 ZMWs en el instrumento PacBio RS II. Secuenciación SMRT se conoce como " tercera generación " o secuenciación "leer largo".

la secuenciación del ADN Nanopore

El ADN que pasa a través de la nanopore cambia su corriente de iones. Este cambio es dependiente de la forma, el tamaño y la longitud de la secuencia de ADN. Cada tipo de los bloques de nucleótidos del flujo de iones a través del poro por un período de tiempo diferente. El método no requiere nucleótidos modificados y se realiza en tiempo real. Secuenciación de nanoporos se conoce como " tercera generación " o secuenciación "-lectura larga", junto con la secuenciación de SMRT.

Investigación industrial temprana en este método se basa en una técnica llamada 'secuenciación exonucleasa', donde la lectura de las señales eléctricas que ocurren en los nucleótidos que pasan por alfa (α)-hemolisina poros unidos covalentemente con ciclodextrina . Sin embargo el método posteriormente comercial, las bases de ADN de secuenciación 'de secuenciación de hebra' en una hebra intacta.

Dos áreas principales de secuenciación de nanoporos en desarrollo son secuenciación de nanoporos en estado sólido, y la proteína basado secuenciación de nanoporos. Secuenciación de proteínas nanopore utiliza complejos de proteínas de membrana tales como α-hemolisina, mspa ( Mycobacterium smegmatis Porin A) o CSSG, que muestran una gran promesa dada su capacidad para distinguir entre individuos y grupos de nucleótidos. En contraste, la secuenciación de nanoporos de estado sólido utiliza materiales sintéticos tales como nitruro de silicio y óxido de aluminio y se prefiere por su capacidad mecánica superior y la estabilidad térmica y química. El método de fabricación es esencial para este tipo de secuenciación, dado que la matriz de nanoporos puede contener cientos de poros con diámetros más pequeños de ocho nanómetros.

El concepto se originó a partir de la idea de que las moléculas de ADN o ARN de cadena sencilla se pueden electroforéticamente accionados en una estricta secuencia lineal a través de un poro biológica que puede ser inferior a ocho nanómetros, y puede ser detectado dado que las moléculas liberan una corriente iónica mientras se mueve a través de la poro. El poro contiene una región de detección capaz de reconocer diferentes bases, con cada base de la generación de señales específicas diferentes de tiempo correspondientes a la secuencia de bases que cruzan el poro que son evaluados a continuación. un control preciso sobre el transporte de ADN a través del poro es crucial para el éxito. Diversas enzimas, tales como las exonucleasas y polimerasas se han utilizado para moderar este proceso mediante el posicionamiento de ellos cerca de la entrada del poro.

Métodos en desarrollo

Métodos de secuenciación de ADN actualmente en desarrollo incluyen la lectura de la secuencia como una tránsitos de hebras de ADN a través de nanoporos (un método que es ahora generaciones comerciales, pero posteriores como nanoporos de estado sólido son todavía en desarrollo), y técnicas basadas en microscopía, tales como microscopía de fuerza atómica o microscopía electrónica de transmisión que se utilizan para identificar las posiciones de nucleótidos individuales dentro de fragmentos de ADN largos (> 5000 pb) por medio del etiquetado de nucleótidos con elementos más pesados (por ejemplo, halógenos) para la detección visual y grabación. Tecnologías de tercera generación tienen como objetivo aumentar el rendimiento y disminuir el tiempo para dar lugar y el costo eliminando la necesidad de reactivos excesivas y el aprovechamiento de la capacidad de procesamiento de la ADN polimerasa.

corrientes túnel de secuenciación de ADN

Otro enfoque utiliza mediciones de las corrientes de tunelización eléctricos a través de ADN de una sola hebra medida que se mueve a través de un canal. Dependiendo de su estructura electrónica, cada base afecta a la corriente de efecto túnel de manera diferente, lo que permite la diferenciación entre las diferentes bases.

El uso de corrientes de tunelización tiene el potencial para secuenciar órdenes de magnitud más rápido que los métodos actuales iónicos y la secuenciación de varios oligómeros de ADN y micro-ARN ya se ha logrado.

La secuenciación por hibridación

La secuenciación por hibridación es un método no enzimático que usa una micromatriz de ADN . Una única piscina de ADN cuya secuencia se va a determinar se marcado con fluorescencia y se hibridó con una matriz que contiene secuencias conocidas. Señales de hibridación fuertes de un punto dado en la matriz identifica su secuencia en el ADN se secuenció.

Este método de secuenciación utiliza características de unión de una biblioteca de moléculas cortas de cadena sencilla de ADN (oligonucleótidos), también llamadas sondas de ADN, para reconstruir una secuencia de ADN diana. híbridos no específicas se eliminan por lavado y se eluyó el ADN diana. Los híbridos se re-dispuestos de tal manera que la secuencia de ADN puede ser reconstruida. La ventaja de este tipo de secuenciación es su capacidad para capturar un gran número de objetivos con una cobertura homogénea. por lo general se requiere un gran número de productos químicos y de ADN de partida. Sin embargo, con el advenimiento de la hibridación basado en la solución, mucho menos equipo y los productos químicos son necesarios.

Secuenciación con espectrometría de masas

La espectrometría de masas se puede usar para determinar las secuencias de ADN. Láser de desorción ionización de espectrometría asistida por matriz de tiempo de vuelo de masas o MALDI-TOF MS , específicamente ha sido investigado como un método alternativo al gel de electroforesis para la visualización de fragmentos de ADN. Con este método, fragmentos de ADN generados por las reacciones de secuenciación de terminación de cadena se comparan en masa en lugar de por el tamaño. La masa de cada nucleótido es diferente de los otros y esta diferencia es detectable por espectrometría de masas. Mutaciones de un solo nucleótido en un fragmento se pueden detectar más fácilmente con MS que por electroforesis en gel de solo. MALDI-TOF MS puede detectar más fácilmente las diferencias entre los fragmentos de ARN, por lo que los investigadores pueden indirectamente secuencia de ADN con los métodos basados en MS mediante la conversión a ARN primero.

La resolución más alta de fragmentos de ADN permitidos por métodos basados en MS es de especial interés para los investigadores en la ciencia forense, ya que pueden desear encontrar los polimorfismos de un solo nucleótido en muestras de ADN humano para identificar individuos. Estas muestras pueden ser altamente degradado lo que los investigadores forenses a menudo prefieren ADN mitocondrial por su mayor estabilidad y aplicaciones estudios de linaje. Métodos de secuenciación basados en MS se han utilizado para comparar las secuencias de ADN mitocondrial humano a partir de muestras en una Oficina Federal de Investigaciones base de datos y de los huesos que se encuentran en fosas comunes de soldados de la Primera Guerra Mundial.

Early de terminación de cadena y métodos TOF MS demostraron leer longitudes de hasta 100 pares de bases. Los investigadores han sido incapaces de superar este tamaño promedio de lectura; como secuenciación de terminación de cadena solo, secuenciación de ADN basada en MS puede no ser adecuado para grandes de novo proyectos de secuenciación. Aun así, un estudio reciente hizo uso de la secuencia corta lee y espectroscopía de masas para comparar los polimorfismos de un solo nucleótido en patógenos Streptococcus cepas.

secuenciación de microfluidos Sanger

En microfluidos Sanger secuenciación de toda la amplificación de termociclado de fragmentos de ADN, así como su separación por electroforesis se lleva a cabo en una sola oblea de vidrio (aproximadamente 10 cm de diámetro), reduciendo así el uso de reactivos así como el costo. En algunos casos los investigadores han demostrado que pueden aumentar el rendimiento de la secuenciación convencional mediante el uso de microchips. todavía tendrá que ser hecho con el fin de hacer este uso de la tecnología efectiva investigación.

Las técnicas basadas en Microscopía

Este enfoque visualiza directamente la secuencia de moléculas de ADN utilizando microscopía electrónica. La primera identificación de pares de bases de ADN dentro de las moléculas de ADN intactas por bases enzimáticamente incorporando modificados, que contienen átomos de mayor número atómico, la visualización directa y la identificación de bases marcadas individualmente dentro de un par de bases molécula de ADN sintético 3272 y un genoma viral 7249 pares de bases ha sido demostrado.

secuenciación RNAP

Este método se basa en el uso de la ARN polimerasa (RNAP), que está unido a un poliestireno de talón. Un extremo del ADN a ser secuenciado está unido a otro talón, con las dos bolas se colocan en trampas ópticas. Movimiento RNAP durante la transcripción trae las perlas en más cerca y sus cambios de distancia relativa, que luego se pueden grabar en una sola resolución de nucleótidos. La secuencia se deduce sobre la base de las cuatro lecturas con concentraciones más bajos de cada uno de los cuatro tipos de nucleótidos, de manera similar al método de Sanger. Se hace una comparación entre las regiones y la información de secuencia se deduce mediante la comparación de las regiones de secuencia conocidas por las regiones de secuencias desconocidas.

In vitro virus secuenciación de alto rendimiento

Un método ha sido desarrollado para analizar conjuntos completos de las interacciones proteína utilizando una combinación de 454 pirosecuenciación y una vitro en virus pantalla mRNA método. Específicamente, este método une covalentemente proteínas de interés a los mRNAs que los codifican, a continuación, detecta las piezas de ARNm de transcripción inversa utilizando PCR . El ARNm puede entonces ser amplificado y secuenciado. El método combinado se tituló IVV-HiTSeq y se puede realizar en condiciones libres de células, aunque sus resultados pueden no ser representativas de in vivo condiciones.

preparación de la muestra

El éxito de cualquier protocolo de secuenciación de ADN se basa en el ADN o ARN de extracción de muestras y la preparación a partir del material biológico de interés.

  • A la extracción de ADN con éxito dará lugar a una muestra de ADN con hebras largas, no degradados.
  • A la extracción de RNA con éxito dará lugar a una muestra de ARN que se deben convertir en ADN complementario (ADNc) utilizando transcriptasa una ADN polimerasa inversa que sintetiza un ADN complementario basado en hebras existentes de RNA de una manera PCR-similares. El ADN complementario se puede procesar la misma manera que el ADN genómico.

De acuerdo con la tecnología de secuenciación a ser utilizado, las muestras resultantes, ya sea del ADN o la extracción de ARN requieren más preparación. Para la secuenciación de Sanger, se requiere que cualquiera de los procedimientos de clonación o PCR antes de la secuenciación. En el caso de métodos de secuenciación de nueva generación, se requiere la preparación de la biblioteca antes de procesar. La evaluación de la calidad y cantidad de los ácidos nucleicos, tanto después de la extracción y después de la preparación de la biblioteca identifica muestras y los rendimientos degradados, fragmentados, y de baja pureza datos de secuenciación de alta calidad.

Las iniciativas de desarrollo

El coste total de la secuenciación de un genoma humano con el tiempo calculado por el NHGRI .

En octubre de 2006, la Fundación Premio X estableció una iniciativa para promover el desarrollo de la secuenciación del genoma completo de tecnologías, llamado el Premio Archon X , con la intención de otorgar $ 10 millones para "El primer equipo que se puede construir un dispositivo y utilizarlo para secuenciar 100 genomas humanos dentro de los 10 días o menos, con una precisión de no más de un error en cada 100.000 bases secuenciado, con secuencias que cubre con precisión al menos el 98% del genoma, y con un coste recurrente de no más de $ 10.000 (US) por genoma ".

Cada año, el Instituto Nacional de Investigación del Genoma Humano , o NHGRI, promueve ayudas para nuevas investigaciones y desarrollos en genómica . 2010 y 2011 subvenciones candidatos incluyen el trabajo continuo de microfluidos, polony y metodologías de secuenciación de base pesada.

retos computacionales

Las tecnologías de secuenciación descritos aquí producen datos en bruto que necesita ser ensamblado en secuencias más largas, tales como genomas completos ( secuencia de montaje ). Hay muchos retos computacionales para lograrlo, tales como la evaluación de los datos de secuencia en bruto que se realiza mediante programas y algoritmos tales como Phred y Phrap . Otros desafíos tienen que tratar con repetitivas secuencias que a menudo impiden asambleas del genoma completo ya que se producen en muchos lugares del genoma. Como consecuencia, muchas secuencias no pueden ser asignados a determinados cromosomas . La producción de los datos de secuencia en bruto es sólo el comienzo de su detallada bioinformatical análisis. Sin embargo, se han desarrollado nuevos métodos para la secuenciación y la corrección de errores de secuenciación.

leer el recorte

A veces, Las lecturas brutas producido por el secuenciador son correcta y precisa sólo en una fracción de su longitud. Usando toda la lectura puede introducir artefactos en los análisis de aguas abajo como genoma de montaje, llamadas SNP, o estimación de la expresión génica. Se han introducido dos clases de programas de recorte, basado en las clases basados ​​en ventanas o el funcionamiento de una suma de algoritmos. Esta es una lista parcial de los algoritmos de recorte disponibles en la actualidad, la especificación de la clase de algoritmo al que pertenecen:

Leer Recorte de Algoritmos
Nombre del algoritmo Tipo de algoritmo Enlazar
Cutadapt suma en ejecución Cutadapt
ConDeTri basado en una ventana ConDeTri
ERNE-FILTER suma en ejecución ERNE-FILTER
FASTX condensador de ajuste de la calidad basado en una ventana FASTX condensador de ajuste de la calidad
PRINSEQ basado en una ventana PRINSEQ
Trimmomatic basado en una ventana Trimmomatic
SolexaQA basado en una ventana SolexaQA
SolexaQA-BWA suma en ejecución SolexaQA-BWA
Hoz basado en una ventana Hoz

Cuestiones éticas

La genética humana se han incluido dentro del campo de la bioética desde principios de la década de 1970 y el crecimiento en el uso de la secuenciación del ADN (particularmente secuenciación de alto rendimiento) se ha introducido una serie de cuestiones éticas. Una cuestión clave es la propiedad del ADN de un individuo y los datos producidos cuando se secuencia que el ADN. En cuanto a la molécula de ADN en sí, el caso legal que lleva sobre este tema, Moore v. Regentes de la Universidad de California (1990) dictaminó que los individuos no tienen derechos de propiedad sobre las células descartadas o los beneficios obtenidos usando estas células (por ejemplo, como un patentado línea celular ). Sin embargo, los individuos tienen el derecho al consentimiento informado respecto a la remoción y el uso de las células. Respecto a los datos producidos a través de secuenciación de ADN, Moore da al individuo no tiene derechos a la información derivada de su ADN.

Como la secuenciación del ADN se hace más generalizada, el almacenamiento, la seguridad y el intercambio de datos genómicos también se ha vuelto más importante. Por ejemplo, una de las preocupaciones es que las aseguradoras pueden usar los datos genómicos de un individuo para modificar su presupuesto, dependiendo de la salud en el futuro la percepción del individuo sobre la base de su ADN. En mayo de 2008, la Ley de Información No Discriminación Genética (GINA) se firmó en los Estados Unidos, que prohíbe la discriminación sobre la base de la información genética con respecto al seguro de salud y el empleo. En 2012, los EE.UU. Comisión Presidencial para el Estudio de Asuntos de Bioética informó que la legislación vigente privacidad de los datos de secuenciación de ADN, tales como GINA y la Ley de Portabilidad del Seguro de Salud y eran insuficientes, y señaló que los datos de secuenciación de todo el genoma era particularmente sensible, ya que podría ser utilizado para identificar no sólo a la persona de la cual se crearon los datos, sino también a sus familiares.

Las cuestiones éticas También se han planteado por el creciente uso de la detección variación genética, tanto en recién nacidos y en adultos por compañías como 23andMe . Se ha afirmado que la detección de variaciones genéticas puede ser perjudicial, lo que aumenta la ansiedad en los individuos que se han encontrado para tener un mayor riesgo de enfermedad. Por ejemplo, en un caso señalaron en tiempo , los médicos de detección a un bebé enfermo por variantes genéticas decidieron no informar a los padres de una variante relacionada vinculada a la demencia debido al daño que causaría a los padres. Sin embargo, un estudio de 2011 en el New England Journal of Medicine ha demostrado que los individuos sometidos a perfiles de riesgo de la enfermedad no mostraron mayores niveles de ansiedad.

Ver también

referencias

enlaces externos