Ensamblaje de secuencia - Sequence assembly

En bioinformática , el ensamblaje de secuencias se refiere a alinear y fusionar fragmentos de una secuencia de ADN más larga para reconstruir la secuencia original. Esto es necesario ya que la tecnología de secuenciación de ADN no puede leer genomas completos de una sola vez, sino que lee pequeñas piezas de entre 20 y 30.000 bases, según la tecnología utilizada. Por lo general, los fragmentos cortos, llamados lecturas, son el resultado de la secuenciación rápida del ADN genómico o la transcripción de genes ( EST ).

El problema del ensamblaje de secuencias se puede comparar con tomar muchas copias de un libro, pasar cada una de ellas por una trituradora con un cortador diferente y volver a unir el texto del libro con solo mirar las piezas trituradas. Además de la dificultad obvia de esta tarea, existen algunos problemas prácticos adicionales: el original puede tener muchos párrafos repetidos y algunos fragmentos pueden modificarse durante la destrucción para tener errores tipográficos. También se pueden agregar extractos de otro libro, y algunos fragmentos pueden ser completamente irreconocibles.

Ensambladores de genomas

Los primeros ensambladores de secuencias comenzaron a aparecer a fines de la década de 1980 y principios de la de 1990 como variantes de programas de alineación de secuencias más simples para juntar grandes cantidades de fragmentos generados por instrumentos de secuenciación automatizados llamados secuenciadores de ADN . A medida que los organismos secuenciados crecieron en tamaño y complejidad (desde pequeños virus sobre plásmidos hasta bacterias y finalmente eucariotas ), los programas de ensamblaje utilizados en estos proyectos del genoma necesitaron estrategias cada vez más sofisticadas para manejar:

  • terabytes de datos de secuenciación que necesitan procesarse en clústeres informáticos ;
  • secuencias idénticas y casi idénticas (conocidas como repeticiones ) que pueden, en el peor de los casos, aumentar cuadráticamente la complejidad temporal y espacial de los algoritmos;
  • El ADN lee errores en los fragmentos de los instrumentos de secuenciación, lo que puede confundir el ensamblaje.

Ante el desafío de ensamblar los primeros genomas eucariotas más grandes (la mosca de la fruta Drosophila melanogaster en 2000 y el genoma humano solo un año después), los científicos desarrollaron ensambladores como Celera Assembler y Arachne capaces de manejar genomas de 130 millones (por ejemplo, la mosca de la fruta D. melanogaster ) a 3 mil millones (por ejemplo, el genoma humano) de pares de bases. Posteriormente a estos esfuerzos, varios otros grupos, principalmente en los principales centros de secuenciación del genoma, construyeron ensambladores a gran escala y se lanzó un esfuerzo de código abierto conocido como AMOS para reunir todas las innovaciones en la tecnología de ensamblaje del genoma bajo el marco de código abierto.

Estrategia de cómo un ensamblador de secuencias tomaría fragmentos (que se muestran debajo de la barra negra) y uniría las superposiciones entre ellos para ensamblar la secuencia final (en negro). Las repeticiones potencialmente problemáticas se muestran encima de la secuencia (arriba en rosa). Sin fragmentos superpuestos, puede ser imposible asignar estos segmentos a una región específica.

Ensambladores EST

La etiqueta de secuencia expresada o ensamblaje de EST fue una estrategia temprana, que data de mediados de la década de 1990 hasta mediados de la década de 2000, para ensamblar genes individuales en lugar de genomas completos. El problema se diferencia del ensamblaje del genoma en varios aspectos. Las secuencias de entrada para el ensamblaje de EST son fragmentos del ARNm transcrito de una célula y representan solo un subconjunto del genoma completo. Varios problemas algorítmicos difieren entre el genoma y el ensamblaje de EST. Por ejemplo, los genomas a menudo tienen grandes cantidades de secuencias repetitivas, concentradas en las regiones intergénicas. Los genes transcritos contienen muchas menos repeticiones, lo que facilita el ensamblaje. Por otro lado, algunos genes se expresan (transcriben) en números muy altos (por ejemplo, genes de mantenimiento ), lo que significa que, a diferencia de la secuenciación rápida del genoma completo, las lecturas no se muestrean uniformemente en todo el genoma.

El ensamblaje de EST se complica mucho más por características como el empalme alternativo (cis) , empalme trans , polimorfismo de un solo nucleótido y modificación postranscripcional . A partir de 2008, cuando se inventó RNA-Seq , la secuenciación EST fue reemplazada por esta tecnología mucho más eficiente, descrita bajo ensamblaje de transcriptoma de novo .

Ensamblaje de novo frente a mapeo

En el montaje secuencial, se pueden distinguir dos tipos diferentes:

  1. de-novo: en el montaje corto lee para crear de longitud completa (a veces novela) secuencias, sin necesidad de utilizar una plantilla (ver de novo de secuencias ensambladores , de novo transcriptoma montaje )
  2. mapeo: ensamblar lecturas contra una secuencia principal existente, construir una secuencia que es similar pero no necesariamente idéntica a la secuencia principal

En términos de complejidad y requisitos de tiempo, los ensamblajes de novo son órdenes de magnitud más lentos y requieren más memoria que los ensamblajes de mapeo. Esto se debe principalmente al hecho de que el algoritmo de ensamblaje necesita comparar cada lectura con cada otra lectura (una operación que tiene una complejidad de tiempo ingenua de O ( n 2 ). En referencia a la comparación realizada con libros triturados en la introducción: mientras que para mapear ensamblajes, uno tendría un libro muy similar como plantilla (tal vez con los nombres de los personajes principales y algunas ubicaciones cambiadas), los ensamblajes de novo presentan un desafío más desalentador en el sentido de que uno no sabría de antemano si esto se convertiría en una ciencia libro, una novela, un catálogo o incluso varios libros, además, cada fragmento se compararía con cualquier otro fragmento.

El manejo de repeticiones en ensamblaje de novo requiere la construcción de un gráfico que represente repeticiones vecinas. Esta información puede derivarse de la lectura de un fragmento largo que cubra las repeticiones en su totalidad o solo sus dos extremos . Por otro lado, en un ensamblaje de mapeo, las piezas con múltiples coincidencias o sin coincidencias generalmente se dejan para que otra técnica de ensamblaje las examine.

Influencia de los cambios tecnológicos

La complejidad del ensamblaje de secuencias está impulsada por dos factores principales: el número de fragmentos y sus longitudes. Si bien más fragmentos y más largos permiten una mejor identificación de las superposiciones de secuencias, también plantean problemas ya que los algoritmos subyacentes muestran un comportamiento de complejidad cuadrática o incluso exponencial tanto para el número de fragmentos como para su longitud. Y aunque las secuencias más cortas son más rápidas de alinear, también complican la fase de diseño de un ensamblaje, ya que las lecturas más cortas son más difíciles de usar con repeticiones o casi idénticas.

En los primeros días de la secuenciación del ADN, los científicos solo podían obtener unas pocas secuencias de corta longitud (una docena de bases) después de semanas de trabajo en laboratorios. Por tanto, estas secuencias podrían alinearse a mano en unos minutos.

En 1975, se inventó el método de terminación didesoxi (también conocido como secuenciación de Sanger ) y hasta poco después de 2000, la tecnología se mejoró hasta un punto en el que máquinas totalmente automatizadas podían producir secuencias en un modo altamente paralelizado las 24 horas del día. Los grandes centros de genoma de todo el mundo albergaban granjas completas de estas máquinas de secuenciación, lo que a su vez llevó a la necesidad de optimizar los ensambladores para las secuencias de proyectos de secuenciación de escopeta de genoma completo donde las lecturas

  • miden entre 800 y 900 bases de largo
  • contienen artefactos de secuenciación como vectores de secuenciación y clonación
  • tienen tasas de error entre 0.5 y 10%

Con la tecnología Sanger, los proyectos bacterianos con 20.000 a 200.000 lecturas se podrían ensamblar fácilmente en una computadora. Los proyectos más grandes, como el genoma humano con aproximadamente 35 millones de lecturas, necesitaban grandes granjas informáticas y computación distribuida.

Para 2004/2005 , 454 Life Sciences había llevado la pirosecuenciación a la viabilidad comercial . Este nuevo método de secuenciación generó lecturas mucho más cortas que las de secuenciación de Sanger: inicialmente unas 100 bases, ahora 400-500 bases. Su rendimiento mucho mayor y su menor costo (en comparación con la secuenciación de Sanger) impulsaron la adopción de esta tecnología por parte de los centros del genoma, lo que a su vez impulsó el desarrollo de ensambladores de secuencias que podrían manejar de manera eficiente los conjuntos de lectura. La gran cantidad de datos junto con los patrones de error específicos de la tecnología en las lecturas retrasaron el desarrollo de los ensambladores; a principios de 2004 solo estaba disponible el ensamblador Newbler de 454. Lanzada a mediados de 2007, la versión híbrida del ensamblador MIRA de Chevreux et al. fue el primer ensamblador disponible gratuitamente que pudo ensamblar 454 lecturas, así como mezclas de 454 lecturas y lecturas Sanger. El ensamblaje de secuencias de diferentes tecnologías de secuenciación se acuñó posteriormente como ensamblaje híbrido .

Desde 2006, la tecnología Illumina (anteriormente Solexa) ha estado disponible y puede generar alrededor de 100 millones de lecturas por ejecución en una sola máquina de secuenciación. Compare esto con las 35 millones de lecturas del proyecto del genoma humano que necesitó varios años para ser producido en cientos de máquinas secuenciadoras. Illumina se limitó inicialmente a una longitud de solo 36 bases, lo que lo hacía menos adecuado para el ensamblaje de novo (como el ensamblaje del transcriptoma de novo ), pero las iteraciones más nuevas de la tecnología logran longitudes de lectura superiores a 100 bases en ambos extremos de un clon de 3-400 pb . Anunciado a finales de 2007, el ensamblador SHARCGS de Dohm et al. fue el primer ensamblador publicado que se utilizó para un ensamblaje con Solexa reads. Fue seguido rápidamente por varios otros.

Más tarde, se lanzaron nuevas tecnologías como SOLiD de Applied Biosystems , Ion Torrent y SMRT y continúan surgiendo nuevas tecnologías (por ejemplo, secuenciación Nanopore ). A pesar de las mayores tasas de error de estas tecnologías, son importantes para el ensamblaje porque su mayor longitud de lectura ayuda a solucionar el problema de repetición. Es imposible ensamblar a través de una repetición perfecta que sea más larga que la longitud máxima de lectura; sin embargo, a medida que las lecturas se alargan, la posibilidad de una repetición perfecta tan grande se reduce. Esto le da a las lecturas de secuenciación más largas una ventaja en el ensamblaje de repeticiones incluso si tienen baja precisión (~ 85%).

Algoritmo codicioso

Dado un conjunto de fragmentos de secuencia, el objetivo es encontrar una secuencia más larga que contenga todos los fragmentos.

  1. Calcule las alineaciones por pares de todos los fragmentos.
  2. Elija dos fragmentos con la mayor superposición.
  3. Fusionar fragmentos elegidos.
  4. Repita los pasos 2 y 3 hasta que solo quede un fragmento.

El resultado no tiene por qué ser una solución óptima al problema.

Programas

Para obtener una lista de ensambladores de novo , consulte Ensambladores de secuencia de novo . Para obtener una lista de alineadores de mapeo, consulte Lista de software de alineación de secuencias § Alineación de secuencias de lectura corta .

Ver también

Referencias