Cobertura (genética) - Coverage (genetics)

Una superposición del producto de tres ejecuciones de secuenciación, con la profundidad de lectura en cada punto indicado.

La cobertura (o profundidad) en la secuenciación de ADN es el número de lecturas únicas que incluyen un nucleótido dado en la secuencia reconstruida. La secuenciación profunda se refiere al concepto general de apuntar a un gran número de lecturas únicas de cada región de una secuencia.

Razón fundamental

Aunque la precisión de secuenciación para cada nucleótido individual es muy alta, la gran cantidad de nucleótidos en el genoma significa que si un genoma individual solo se secuencia una vez, habrá un número significativo de errores de secuenciación. Además, muchas posiciones en un genoma contienen polimorfismos de un solo nucleótido (SNP) raros . Por lo tanto, para distinguir entre errores de secuenciación y SNP verdaderos, es necesario aumentar aún más la precisión de la secuencia mediante la secuenciación de genomas individuales un gran número de veces.

Secuenciación ultra profunda

El término "ultraprofundo" a veces también puede referirse a una mayor cobertura (> 100 veces), lo que permite la detección de variantes de secuencia en poblaciones mixtas. En el extremo, los enfoques de secuenciación con corrección de errores, como la secuenciación de profundidad máxima, pueden hacer que la cobertura de una región determinada se acerque al rendimiento de una máquina de secuenciación, lo que permite coberturas de> 10 ^ 8.

Secuenciación de transcriptomas

La secuenciación profunda de transcriptomas , también conocida como RNA-Seq , proporciona tanto la secuencia como la frecuencia de las moléculas de RNA que están presentes en un momento determinado en un tipo de célula, tejido u órgano específico. Contar el número de ARNm que están codificados por genes individuales proporciona un indicador del potencial de codificación de proteínas, un factor importante que contribuye al fenotipo . La mejora de los métodos para la secuenciación de ARN es un área activa de investigación tanto en términos de métodos experimentales como computacionales.

Cálculo

La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original ( G ), el número de lecturas ( N ) y la longitud de lectura promedio ( L ) como . Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidos a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá una redundancia de 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado amplitud de cobertura). Se desea una alta cobertura en la secuenciación de escopeta porque puede superar errores en la llamada y el ensamblaje de bases . El tema de la teoría de la secuenciación del ADN aborda las relaciones de tales cantidades.

Cobertura física

A veces se hace una distinción entre cobertura de secuencia y cobertura física . Donde la cobertura de secuencia es el número promedio de veces que se lee una base, la cobertura física es el número promedio de veces que se lee o se extiende una base por lecturas emparejadas.

Referencias