Phrap - Phrap

Phrap es un programa ampliamente utilizado para el ensamblaje de secuencias de ADN . Es parte del paquete Phred -Phrap- Consed .

Historia

Phrap fue desarrollado originalmente por el profesor Phil Green para el ensamblaje de cósmidos en secuenciación de escopeta de cósmidos a gran escala dentro del Proyecto Genoma Humano . Phrap se ha utilizado ampliamente para muchos proyectos de ensamblaje de secuencias diferentes, incluidos los ensamblajes del genoma bacteriano y los ensamblajes EST.

Phrap fue escrito como un programa de línea de comandos para una fácil integración en los flujos de trabajo de datos automatizados en los centros de secuenciación del genoma. Para los usuarios que deseen utilizar Phrap desde una interfaz gráfica, están disponibles los programas comerciales MacVector (solo para Mac OS X ) y CodonCode Aligner (para Mac OS X y Microsoft Windows ).

Métodos

Se puede encontrar una descripción detallada (aunque parcialmente desactualizada) de los algoritmos de Phrap en la documentación de Phrap . Un hilo recurrente dentro de los algoritmos Phrap es el uso de puntajes de calidad Phred . Phrap usó puntuaciones de calidad para mitigar un problema con el que otros programas de ensamblaje habían luchado al comienzo del Proyecto Genoma Humano : ensamblar correctamente repeticiones imperfectas frecuentes, en particular secuencias Alu . Phrap utiliza puntuaciones de calidad para saber si es probable que las diferencias observadas en las regiones repetidas se deban a ambigüedades aleatorias en el proceso de secuenciación, o más probablemente a que las secuencias proceden de copias diferentes de la repetición Alu. Por lo general, Phrap no tuvo problemas para diferenciar entre las diferentes copias de Alu en un cósmido y ensamblar correctamente los cósmidos (o, más tarde, BAC ). La lógica es simple: una llamada de base con una alta probabilidad de ser correcta nunca debe alinearse con otra base de alta calidad pero diferente. Sin embargo, Phrap no descarta tales alineaciones por completo, y la brecha de alineación de coincidencia cruzada y las penalizaciones de alineación utilizadas al buscar alineaciones locales no siempre son óptimas para errores de secuenciación típicos y una búsqueda de secuencias superpuestas (contiguas). (Los espacios afines son útiles para las búsquedas de homología, pero no habitualmente para la alineación de errores de secuenciación). Phrap intenta clasificar quimeras, secuencias de vectores y regiones finales de baja calidad, todo en una sola alineación y, a veces, comete errores. Además, Phrap tiene más de una ronda de construcción de ensamblajes internamente y las rondas posteriores son menos estrictas: algoritmo codicioso.

Estas opciones de diseño fueron útiles en la década de 1990 cuando se escribió originalmente el programa (en la Universidad de Washington en Saint Louis, EE. UU.), Pero ahora lo son menos. Phrap parece propenso a errores en comparación con ensambladores más nuevos como Euler y no puede usar la información de pares de relaciones directamente para guiar el ensamblaje y ensamblar repeticiones perfectas pasadas. Phrap no es un software libre, por lo que no se ha ampliado ni mejorado como el ensamblaje de secuencias de software de código abierto menos restringido .

Secuencias de consenso basadas en la calidad

Otro uso de las puntuaciones de calidad Phred por Phrap que contribuyó al éxito del programa fue la determinación de secuencias de consenso utilizando cualidades de secuencia. En efecto, Phrap automatizó un paso que fue un gran cuello de botella en las primeras fases del Proyecto Genoma Humano : determinar la secuencia de consenso correcta en todas las posiciones donde las secuencias ensambladas tenían bases discrepantes. Bonfield y Staden sugirieron este enfoque en 1995, y se implementó y optimizó aún más en Phrap. Básicamente, en cualquier posición de consenso con bases discrepantes, Phrap examina las puntuaciones de calidad de las secuencias alineadas para encontrar la secuencia de mayor calidad. En el proceso, Phrap tiene en cuenta la confirmación de la secuencia local por otras lecturas, después de considerar la dirección y la química de secuenciación.

Las matemáticas de este enfoque eran bastante simples, ya que los puntajes de calidad de Phred están vinculados logarítmicamente a las probabilidades de error. Esto significa que los puntajes de calidad de las lecturas de confirmación simplemente se pueden agregar, siempre que las distribuciones de error sean suficientemente independientes. Para satisfacer este criterio de independencia, las lecturas deben tener típicamente una dirección diferente, ya que los patrones de picos que causan errores de llamada de bases son a menudo idénticos cuando una región se secuencia varias veces en la misma dirección.

Si una base de consenso está cubierta tanto por una secuencia de alta calidad como por una secuencia (discrepante) de baja calidad, la selección de Phrap de la secuencia de mayor calidad será correcta en la mayoría de los casos. Phrap luego asigna la calidad de la base confirmada a la base de la secuencia de consenso. Esto facilita (a) encontrar regiones de consenso que no están cubiertas por una secuencia de alta calidad (que también tendrá baja calidad), y (b) calcular rápidamente una estimación razonablemente precisa de la tasa de error de la secuencia de consenso. Esta información se puede utilizar para dirigir los esfuerzos de acabado, por ejemplo, volver a secuenciar las regiones problemáticas.

La combinación de puntuaciones de calidad precisas y específicas de la base y una secuencia de consenso basada en la calidad fue un elemento fundamental para el éxito del Proyecto Genoma Humano . Phred y Phrap, y programas similares que recogieron las ideas promovidas por estos dos programas, permitieron el ensamblaje de grandes partes del genoma humano (y muchos otros genomas) con una precisión sustancialmente mayor (menos de 1 error en 10,000 bases ) que la precisión típica de secuencias cuidadosamente editadas a mano que se habían enviado antes a la base de datos de GenBank.

Referencias

  1. ^ Bonfield JK, Staden R (1995): La aplicación de estimaciones numéricas de precisión de llamadas de bases a proyectos de secuenciación de ADN. Ácidos nucleicos Res. 25 de abril de 1995; 23 (8): 1406-10. PMID  7753633
  2. ^ Krawetz SA (1989): Errores de secuencia descritos en GenBank: un medio para determinar la precisión de la interpretación de la secuencia de ADN. Ácidos nucleicos Res. 1989 25 de mayo; 17 (10): 3951-7

enlaces externos

Otro software

  • Phred
  • Consed
  • Herramienta de línea de comandos DNA Baser