Teoría de la secuenciación del ADN - DNA sequencing theory

La teoría de la secuenciación de ADN es el amplio cuerpo de trabajo que intenta sentar las bases analíticas para determinar el orden de nucleótidos específicos en una secuencia de ADN , también conocida como secuenciación de ADN . Los aspectos prácticos giran en torno al diseño y la optimización de proyectos de secuenciación (conocidos como "genómica estratégica"), la predicción del rendimiento del proyecto, la resolución de problemas de resultados experimentales, la caracterización de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software y la comparación de varios métodos de secuenciación entre sí. En este sentido, podría considerarse una rama de la ingeniería de sistemas o la investigación de operaciones . El archivo permanente de trabajo es principalmente matemático, aunque a menudo también se realizan cálculos numéricos para problemas particulares. La teoría de la secuenciación del ADN aborda los procesos físicos relacionados con la secuenciación del ADN y no debe confundirse con las teorías del análisis de las secuencias de ADN resultantes, por ejemplo , la alineación de secuencias . Las publicaciones a veces no hacen una distinción cuidadosa, pero estas últimas se preocupan principalmente por cuestiones algorítmicas . La teoría de la secuenciación se basa en elementos de las matemáticas , la biología y la ingeniería de sistemas , por lo que es altamente interdisciplinaria. El tema puede estudiarse en el contexto de la biología computacional .

Teoría y estrategias de secuenciación

Secuenciación como problema de cobertura

Todos los métodos principales de secuenciación de ADN se basan en la lectura de pequeños fragmentos de ADN y, posteriormente, en la reconstrucción de estos datos para inferir el ADN objetivo original, ya sea mediante ensamblaje o alineación con una referencia. La abstracción común a estos métodos es la de un problema de cobertura matemático . Por ejemplo, uno puede imaginar un segmento de línea que representa el objetivo y un proceso posterior en el que se "sueltan" segmentos más pequeños en ubicaciones aleatorias del objetivo. El objetivo se considera "secuenciado" cuando se acumula una cobertura adecuada (por ejemplo, cuando no quedan espacios).

Las propiedades abstractas del recubrimiento han sido estudiadas por matemáticos durante más de un siglo. Sin embargo, la aplicación directa de estos resultados generalmente no ha sido posible. Las soluciones matemáticas de forma cerrada, especialmente para distribuciones de probabilidad, a menudo no se pueden evaluar fácilmente. Es decir, implican cantidades excesivamente grandes de tiempo informático para los parámetros característicos de la secuenciación del ADN . La configuración de Stevens es un ejemplo. Los resultados obtenidos desde la perspectiva de las matemáticas puras tampoco tienen en cuenta los factores que son realmente importantes en la secuenciación, por ejemplo, superposición detectable en fragmentos de secuenciación, doble hebra, efectos de borde y multiplicidad de objetivos. En consecuencia, el desarrollo de la teoría de la secuenciación ha avanzado más de acuerdo con la filosofía de las matemáticas aplicadas . En particular, se ha centrado en problemas y hace un uso conveniente de aproximaciones, simulaciones, etc.

Usos tempranos derivados de la teoría de probabilidad elemental

El resultado más temprano puede obtenerse directamente de la teoría de probabilidad elemental. Supongamos que modelamos el proceso anterior tomando y como la longitud del fragmento y la longitud del objetivo, respectivamente. La probabilidad de "cubrir" cualquier ubicación dada en el objetivo con un fragmento en particular es entonces . (Esto supone , que es válido a menudo, pero no para todos los casos del mundo real.) La probabilidad de que un solo fragmento no cubra una ubicación determinada en el objetivo es , por lo tanto , y para fragmentos. Por lo tanto, la probabilidad de cubrir una ubicación determinada en el objetivo con al menos un fragmento es

Esta ecuación se utilizó por primera vez para caracterizar bibliotecas de plásmidos, pero puede aparecer en una forma modificada. Para la mayoría de los proyectos , de modo que, con un buen grado de aproximación

donde se llama redundancia . Tenga en cuenta la importancia de la redundancia como representación del número medio de veces que una posición se cubre con fragmentos. Tenga en cuenta también que al considerar el proceso de cobertura en todas las posiciones del objetivo, esta probabilidad es idéntica al valor esperado de la variable aleatoria , la fracción de la cobertura del objetivo. El resultado final,

sigue siendo de uso generalizado como un estimador de " reverso del sobre " y predice que la cobertura para todos los proyectos evoluciona a lo largo de una curva universal que es una función sólo de la redundancia.

Teoría de Lander-Waterman

En 1988, Eric Lander y Michael Waterman publicaron un importante artículo que examinaba el problema de la cobertura desde el punto de vista de las lagunas. Aunque se centraron en el llamado problema del mapeo , la abstracción de la secuenciación es muy parecida. Proporcionaron una serie de resultados útiles que se adoptaron como teoría estándar desde los primeros días de la secuenciación del genoma "a gran escala". Su modelo también se utilizó en el diseño del Proyecto Genoma Humano y sigue desempeñando un papel importante en la secuenciación del ADN.

En última instancia, el objetivo principal de un proyecto de secuenciación es cerrar todas las brechas, por lo que la "perspectiva de la brecha" fue una base lógica para desarrollar un modelo de secuenciación. Uno de los resultados de este modelo más utilizados es el número esperado de contigs , dado el número de fragmentos secuenciados. Si uno descuida la cantidad de secuencia que es esencialmente "desperdiciada" al tener que detectar superposiciones, su teoría cede

En 1995, Roach publicó mejoras a esta teoría, lo que le permitió aplicarla a proyectos de secuenciación en los que el objetivo era secuenciar completamente un genoma objetivo. Michael Wendl y Bob Waterston confirmaron, basándose en el método de Stevens, que ambos modelos produjeron resultados similares cuando el número de contigs era sustancial, como en proyectos de secuenciación o mapeo de baja cobertura. A medida que los proyectos de secuenciación se intensificaron en la década de 1990 y los proyectos se acercaron a su finalización, las aproximaciones de baja cobertura se volvieron inadecuadas y se necesitaba el modelo exacto de Roach. Sin embargo, a medida que se redujo el costo de la secuenciación, los parámetros de los proyectos de secuenciación se volvieron más fáciles de probar directamente de manera empírica, y disminuyó el interés y la financiación de la genómica estratégica.

Las ideas básicas de la teoría de Lander-Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las técnicas de mapeo. Sin embargo, los avances tecnológicos han hecho que las teorías cartográficas sean en gran medida obsoletas, excepto en organismos distintos de los organismos modelo altamente estudiados (por ejemplo, levaduras, moscas, ratones y humanos).

Estrategia de estacionamiento

La estrategia de estacionamiento para secuenciar se asemeja al proceso de estacionar autos a lo largo de una acera. Cada coche es un clon secuenciado y la acera es el objetivo genómico. Cada clon secuenciado se criba para asegurar que los clones secuenciados posteriormente no se solapen con ningún clon secuenciado previamente. Ningún esfuerzo de secuenciación es redundante en esta estrategia. Sin embargo, al igual que los espacios entre los automóviles estacionados, los espacios no secuenciados menores que la longitud de un clon se acumulan entre los clones secuenciados. Puede haber un costo considerable para cerrar esas brechas.

Secuenciación final por pares

En 1995, Roach et al. propuso y demostró mediante simulaciones una generalización de un conjunto de estrategias exploradas anteriormente por Edwards y Caskey. Este método de secuenciación del genoma completo se hizo inmensamente popular ya que fue defendido por Celera y se utilizó para secuenciar varios organismos modelo antes de que Celera lo aplicara al genoma humano. En la actualidad, la mayoría de los proyectos de secuenciación emplean esta estrategia, a menudo denominada secuenciación de extremos emparejados.

Avances posteriores al Proyecto Genoma Humano

Los procesos físicos y los protocolos de secuenciación del ADN han seguido evolucionando, impulsados ​​en gran medida por los avances en los métodos bioquímicos, la instrumentación y las técnicas de automatización. En la actualidad, existe una amplia gama de problemas en los que la secuenciación de ADN se ha abierto camino, incluida la metagenómica y la secuenciación médica (cáncer) . Hay factores importantes en estos escenarios que la teoría clásica no tiene en cuenta. El trabajo reciente ha comenzado a centrarse en resolver los efectos de algunos de estos problemas. El nivel de matemáticas se vuelve proporcionalmente más sofisticado.

Varios artefactos de secuenciación de insertos grandes

Los biólogos han desarrollado métodos para filtrar regiones de genomas altamente repetitivas y esencialmente no secuenciables. Estos procedimientos son importantes para organismos cuyos genomas consisten principalmente en dicho ADN, por ejemplo, maíz. Producen multitud de pequeñas islas de productos de ADN secuenciables. Wendl y Barbazuk propusieron una extensión de la teoría de Lander-Waterman para tener en cuenta las "brechas" en el objetivo debido al filtrado y el llamado "efecto de borde". Este último es un sesgo de muestreo específico de la posición, por ejemplo, la posición de la base del terminal solo tiene una posibilidad de ser cubierta, a diferencia de las posiciones interiores. Porque , la teoría clásica de Lander-Waterman todavía ofrece buenas predicciones, pero la dinámica cambia para obtener redundancias más altas.

Los métodos de secuenciación modernos suelen secuenciar ambos extremos de un fragmento más grande, lo que proporciona información de enlace para el ensamblaje de novo y mejores probabilidades de alineación con la secuencia de referencia. Los investigadores generalmente creen que las longitudes de datos más largas (longitudes de lectura) mejoran el rendimiento para objetivos de ADN muy grandes, una idea coherente con las predicciones de los modelos de distribución. Sin embargo, Wendl demostró que los fragmentos más pequeños proporcionan una mejor cobertura en objetivos lineales pequeños porque reducen el efecto de borde en moléculas lineales. Estos hallazgos tienen implicaciones para la secuenciación de los productos de los procedimientos de filtrado de ADN. El emparejamiento de lecturas y el tamaño de los fragmentos evidentemente tienen una influencia insignificante para los objetivos grandes de clases de genoma completo.

Secuenciación individual y poblacional

La secuenciación está emergiendo como una herramienta importante en medicina, por ejemplo, en la investigación del cáncer. Aquí, la capacidad de detectar mutaciones heterocigotas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide . En los esfuerzos pioneros para secuenciar individuos, Levy et al. y Wheeler et al. , quienes secuenciaron a Craig Venter y Jim Watson , respectivamente, describieron modelos para cubrir ambos alelos en un genoma. Wendl y Wilson siguieron con una teoría más general que permitía un número arbitrario de recubrimientos de cada alelo y una ploidía arbitraria . Estos resultados apuntan a la conclusión general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que la de los proyectos haploides tradicionales. Generalmente, ahora es estándar una redundancia de al menos 30 veces, es decir, cada nucleótido abarcado por un promedio de 30 lecturas de secuencia. Sin embargo, los requisitos pueden ser aún mayores, dependiendo de los tipos de eventos genómicos que se encuentren. Por ejemplo, en el llamado "método de pares de lectura discordantes", se pueden inferir inserciones de ADN si la distancia entre pares de lectura es mayor de lo esperado. Los cálculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falso positivo en el umbral del 1%.

El advenimiento de la secuenciación de próxima generación también ha hecho factible la secuenciación de poblaciones a gran escala, por ejemplo, el Proyecto 1000 Genomas para caracterizar la variación en grupos de población humana. Si bien la variación común se captura fácilmente, la variación rara plantea un desafío de diseño: muy pocas muestras con una redundancia de secuencia significativa corre el riesgo de no tener una variante en el grupo de muestra, pero las muestras grandes con una redundancia leve no capturan una variante en el conjunto de lectura que realmente está en el grupo de muestra. Wendl y Wilson informan sobre un conjunto simple de reglas de optimización que maximizan la probabilidad de descubrimiento para un conjunto dado de parámetros. Por ejemplo, para observar un alelo raro al menos dos veces (para eliminar la posibilidad es única de un individuo), se debe usar una redundancia de un poco menos de 4 veces, independientemente del tamaño de la muestra.

Secuenciación metagenómica

Los instrumentos de próxima generación ahora también permiten la secuenciación de comunidades metagenómicas no cultivadas enteras. El escenario de secuenciación es más complicado aquí y hay varias formas de enmarcar las teorías de diseño para un proyecto dado. Por ejemplo, Stanhope desarrolló un modelo probabilístico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamaño dado de cada organismo nuevo de la comunidad, mientras que Wendl et al. informó un análisis para el tamaño medio del contig o la probabilidad de recuperar completamente un organismo nuevo para una rareza dada dentro de la comunidad. Por el contrario, Hooper et al. proponen un modelo semi-empírico basado en la distribución gamma .

Limitaciones

Las teorías de secuenciación del ADN a menudo invocan la suposición de que ciertas variables aleatorias en un modelo son independientes y están distribuidas de manera idéntica . Por ejemplo, en la teoría de Lander-Waterman, se supone que un fragmento secuenciado tiene la misma probabilidad de cubrir cada región de un genoma y se supone que todos los fragmentos son independientes entre sí. En realidad, los proyectos de secuenciación están sujetos a varios tipos de sesgos, incluidas las diferencias de qué tan bien se pueden clonar las regiones, las anomalías de secuenciación, los sesgos en la secuencia objetivo (que no es aleatoria) y los errores y sesgos que dependen del software. En general, la teoría concordará bien con la observación hasta el punto en que se hayan generado suficientes datos para exponer sesgos latentes. Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente difíciles de modelar, ya que es posible que la secuencia en sí no se conozca a priori . Esto presenta un tipo de problema Catch-22 (lógico) .

Ver también

Referencias