Genómica comparada - Comparative genomics

La alineación del genoma completo es un método típico en genómica comparada. Esta alineación de ocho genomas de la bacteria Yersinia revela 78 bloques colineales localmente conservados entre los ocho taxones . Cada cromosoma se ha dispuesto horizontalmente y los bloques homólogos en cada genoma se muestran como regiones de colores idénticos unidas a través de los genomas. Las regiones que están invertidas en relación con Y. pestis KIM se desplazan por debajo del eje central del genoma.

La genómica comparada es un campo de investigación biológica en el que se comparan las características genómicas de diferentes organismos . Las características genómicas pueden incluir la secuencia de ADN , genes , orden de genes , secuencias reguladoras y otros hitos estructurales genómicos. En esta rama de la genómica , se comparan partes completas o grandes de genomas resultantes de proyectos genómicos para estudiar las similitudes y diferencias biológicas básicas, así como las relaciones evolutivas entre organismos. El principal principio de la genómica comparativa es que las características comunes de dos organismos a menudo se codificarán dentro del ADN que se conserva evolutivamente entre ellos. Por lo tanto, los enfoques genómicos comparativos comienzan con hacer alguna forma de alineación de las secuencias del genoma y buscar secuencias ortólogas (secuencias que comparten una ascendencia común ) en los genomas alineados y verificar en qué medida se conservan esas secuencias. A partir de ellos, se infiere la evolución del genoma y molecular y esto, a su vez, puede situarse en el contexto de, por ejemplo, la evolución fenotípica o la genética de poblaciones .

Prácticamente comenzada tan pronto como los genomas completos de dos organismos estuvieron disponibles (es decir, los genomas de las bacterias Haemophilus influenzae y Mycoplasma genitalium ) en 1995, la genómica comparativa es ahora un componente estándar del análisis de cada nueva secuencia del genoma. Con la explosión en la cantidad de proyectos de genoma debido a los avances en las tecnologías de secuenciación de ADN , particularmente los métodos de secuenciación de próxima generación a fines de la década de 2000, este campo se ha vuelto más sofisticado, lo que hace posible tratar con muchos genomas en un solo estudio. La genómica comparada ha revelado altos niveles de similitud entre organismos estrechamente relacionados, como los humanos y los chimpancés , y, más sorprendentemente, la similitud entre organismos aparentemente relacionados de forma distante, como los seres humanos y la levadura Saccharomyces cerevisiae . También ha demostrado la extrema diversidad de la composición genética en diferentes linajes evolutivos.

Historia

Ver también : Historia de la genómica

La genómica comparada tiene su origen en la comparación de genomas de virus a principios de la década de 1980. Por ejemplo, se compararon los pequeños virus de ARN que infectan a los animales ( picornavirus ) y los que infectan a las plantas ( virus del mosaico del caupí ) y resultaron compartir una similitud de secuencia significativa y, en parte, el orden de sus genes. En 1986, se publicó el primer estudio genómico comparativo a mayor escala, comparando los genomas del virus varicela-zoster y el virus de Epstein-Barr que contenían más de 100 genes cada uno.

La primera secuencia completa del genoma de un organismo celular, la de Haemophilus influenzae Rd, se publicó en 1995. El segundo artículo de secuenciación del genoma fue de la pequeña bacteria parasitaria Mycoplasma genitalium publicado ese mismo año. A partir de este artículo, los informes sobre nuevos genomas se convirtieron inevitablemente en estudios genómicos comparativos.

El primer sistema de comparación de genoma completo de alta resolución fue desarrollado en 1998 por Art Delcher, Simon Kasif y Steven Salzberg y se aplicó a la comparación de organismos microbianos completos altamente relacionados con sus colaboradores en el Instituto de Investigación Genómica (TIGR). El sistema se llama MUMMER y se describió en una publicación de Nucleic Acids Research en 1999. El sistema ayuda a los investigadores a identificar grandes reordenamientos, mutaciones de una sola base, reversiones, expansiones repetidas en tándem y otros polimorfismos. En bacterias, MUMMER permite la identificación de polimorfismos responsables de la virulencia, patogenicidad y resistencia a antibióticos. El sistema también se aplicó al Proyecto de organismo mínimo en TIGR y, posteriormente, a muchos otros proyectos de genómica comparada.

Saccharomyces cerevisiae , la levadura de panadería, fue el primer eucariota en tener su secuencia completa del genoma publicada en 1996. Después de la publicación delgenomadel gusano redondo Caenorhabditis elegans en 1998 y junto con elgenoma de lamosca de la fruta Drosophila melanogaster en 2000, Gerald M. Rubin y su El equipo publicó un artículo titulado "Genómica comparativa de los eucariotas", en el que compararon los genomas de los eucariotas D. melanogaster , C. elegans y S. cerevisiae , así como del procariota H. influenzae . Al mismo tiempo, Bonnie Berger , Eric Lander y su equipo publicaron un artículo sobre la comparación del genoma completo de humanos y ratones.

Con la publicación de los grandes genomas de vertebrados en la década de 2000, incluidos los humanos , el pez globo japonés Takifugu rubripes y el ratón , se han publicado resultados precalculados de grandes comparaciones de genomas para su descarga o visualización en un navegador de genoma . En lugar de realizar sus propios análisis, la mayoría de los biólogos pueden acceder a estas grandes comparaciones entre especies y evitar la impracticabilidad causada por el tamaño de los genomas.

Los métodos de secuenciación de próxima generación , que se introdujeron por primera vez en 2007, han producido una enorme cantidad de datos genómicos y han permitido a los investigadores generar múltiples borradores de secuencias genómicas (procariotas) a la vez. Estos métodos también pueden descubrir rápidamente polimorfismos , inserciones y deleciones de un solo nucleótido mapeando lecturas no ensambladas contra un genoma de referencia bien anotado y, por lo tanto, proporcionan una lista de posibles diferencias genéticas que pueden ser la base de cualquier variación funcional entre cepas.

Principios evolutivos

Un carácter de la biología es la evolución, la teoría evolutiva es también la base teórica de la genómica comparada y, al mismo tiempo, los resultados de la genómica comparada enriquecieron y desarrollaron sin precedentes la teoría de la evolución. Cuando se comparan dos o más secuencias del genoma, se pueden deducir las relaciones evolutivas de las secuencias en un árbol filogenético. Con base en una variedad de datos del genoma biológico y el estudio de los procesos de evolución vertical y horizontal, se pueden comprender partes vitales de la estructura genética y su función reguladora.

La similitud de genomas relacionados es la base de la genómica comparativa. Si dos criaturas tienen un ancestro común reciente, las diferencias entre los genomas de las dos especies se desarrollan a partir del genoma de los ancestros. Cuanto más estrecha sea la relación entre dos organismos, mayores serán las similitudes entre sus genomas. Si existe una relación cercana entre ellos, entonces su genoma mostrará un comportamiento lineal ( sintenia ), es decir, se conservan algunas o todas las secuencias genéticas. Por tanto, las secuencias del genoma pueden usarse para identificar la función del gen, analizando su homología (similitud de secuencia) con genes de función conocida.

Las secuencias ortólogas son secuencias relacionadas en diferentes especies: un gen existe en la especie original, la especie se divide en dos especies, por lo que los genes en las nuevas especies son ortólogos a la secuencia en la especie original. Las secuencias parálogas se separan mediante la clonación de genes (duplicación de genes): si se copia un gen particular en el genoma, entonces la copia de las dos secuencias es paralela al gen original. Un par de secuencias ortólogas se denominan pares ortólogos (ortólogos), un par de secuencias parálogas se denominan pares colaterales (parálogos). Los pares ortólogos suelen tener la misma función o una función similar, lo que no es necesariamente el caso de los pares colaterales. En pares colaterales, las secuencias tienden a evolucionar para tener diferentes funciones.

El gen FOXP2 humano y la conservación evolutiva se muestran en una alineación múltiple (en la parte inferior de la figura) en esta imagen del UCSC Genome Browser . Tenga en cuenta que la conservación tiende a agruparse alrededor de regiones codificantes (exones).

La genómica comparativa explota tanto las similitudes como las diferencias en las proteínas , el ARN y las regiones reguladoras de diferentes organismos para inferir cómo la selección ha actuado sobre estos elementos. Los elementos responsables de las similitudes entre diferentes especies deben conservarse a través del tiempo ( selección estabilizadora ), mientras que los elementos responsables de las diferencias entre especies deben ser divergentes ( selección positiva ). Finalmente, aquellos elementos que no son importantes para el éxito evolutivo del organismo no serán atendidos (la selección es neutral).

Uno de los objetivos importantes del campo es la identificación de los mecanismos de evolución del genoma eucariota. Sin embargo, a menudo se complica por la multiplicidad de eventos que han tenido lugar a lo largo de la historia de los linajes individuales, dejando solo rastros distorsionados y superpuestos en el genoma de cada organismo vivo. Por esta razón, los estudios de genómica comparativa de pequeños organismos modelo (por ejemplo, el modelo Caenorhabditis elegans y Caenorhabditis briggsae estrechamente relacionado ) son de gran importancia para avanzar en nuestra comprensión de los mecanismos generales de evolución.

Métodos

Los enfoques computacionales para la comparación del genoma se han convertido recientemente en un tema de investigación común en las ciencias de la computación. Está creciendo una colección pública de estudios de casos y demostraciones, que van desde comparaciones del genoma completo hasta análisis de expresión génica . Esto ha aumentado la introducción de diferentes ideas, incluidos conceptos de sistemas y control, teoría de la información, análisis de cadenas y minería de datos. Se anticipa que los enfoques computacionales se convertirán y seguirán siendo un tema estándar para la investigación y la enseñanza, mientras que varios cursos comenzarán a capacitar a los estudiantes para que dominen ambos temas.

Instrumentos

Las herramientas computacionales para analizar secuencias y genomas completos se están desarrollando rápidamente debido a la disponibilidad de una gran cantidad de datos genómicos. Al mismo tiempo, se avanzan y mejoran las herramientas de análisis comparativo. En los desafíos de estos análisis, es muy importante visualizar los resultados comparativos.

La visualización de la conservación de secuencias es una ardua tarea del análisis de secuencias comparativas. Como sabemos, es muy ineficaz examinar manualmente la alineación de regiones genómicas largas. Los navegadores de genomas basados ​​en Internet proporcionan muchas herramientas útiles para investigar secuencias genómicas debido a que integran toda la información biológica basada en secuencias en las regiones genómicas. Cuando extraemos una gran cantidad de datos biológicos relevantes, pueden ser muy fáciles de usar y consumir menos tiempo.

  • UCSC Browser : este sitio contiene la secuencia de referencia y los borradores de trabajo para una gran colección de genomas.
  • Ensembl : El proyecto Ensembl produce bases de datos de genomas para vertebrados y otras especies eucariotas, y hace que esta información esté disponible gratuitamente en línea.
  • MapView : Map Viewer proporciona una amplia variedad de datos de secuenciación y mapeo del genoma.
  • VISTA es un conjunto completo de programas y bases de datos para el análisis comparativo de secuencias genómicas. Fue construido para visualizar los resultados de análisis comparativos basados ​​en alineaciones de ADN. La presentación de datos comparativos generados por VISTA puede adaptarse fácilmente a datos de pequeña y gran escala.
  • BlueJay Genome Browser : una herramienta de visualización independiente para la visualización en múltiples escalas de genomas anotados y otros elementos genómicos.

Una ventaja de utilizar herramientas en línea es que estos sitios web se desarrollan y actualizan constantemente. Hay muchas configuraciones nuevas y el contenido se puede usar en línea para mejorar la eficiencia.

Aplicaciones

Agricultura

La agricultura es un campo que aprovecha los beneficios de la genómica comparada. La identificación de los loci de genes ventajosos es un paso clave en el mejoramiento de cultivos optimizados para un mayor rendimiento, rentabilidad, calidad y resistencia a las enfermedades. Por ejemplo, un estudio de asociación de todo el genoma realizado en 517 variedades locales de arroz reveló 80 loci asociados con varias categorías de desempeño agronómico, como el peso del grano, el contenido de amilosa y la tolerancia a la sequía. Muchos de los loci no estaban caracterizados anteriormente. Esta metodología no solo es poderosa, también es rápida. Los métodos anteriores de identificación de loci asociados con el desempeño agronómico requerían varias generaciones de reproducción cuidadosamente monitoreada de cepas parentales, un esfuerzo que consume mucho tiempo y es innecesario para los estudios genómicos comparativos.

Medicamento

El campo de la medicina también se beneficia del estudio de la genómica comparada. La vacunación, en particular, ha experimentado avances tecnológicos útiles debido a los enfoques genómicos de los problemas. En un enfoque conocido como vacunación inversa , los investigadores pueden descubrir antígenos candidatos para el desarrollo de vacunas analizando el genoma de un patógeno o una familia de patógenos. La aplicación de un enfoque de genómica comparativa mediante el análisis de los genomas de varios patógenos relacionados puede conducir al desarrollo de vacunas multiprotectivas. Un equipo de investigadores empleó este enfoque para crear una vacuna universal para el estreptococo del grupo B , un grupo de bacterias responsables de la infección neonatal grave. La genómica comparativa también puede usarse para generar especificidad para vacunas contra patógenos que están estrechamente relacionados con microorganismos comensales. Por ejemplo, los investigadores utilizaron un análisis genómico comparativo de cepas comensales y patógenas de E. coli para identificar genes específicos de patógenos como base para encontrar antígenos que resultan en una respuesta inmune contra cepas patógenas pero no comensales. En mayo de 2019, utilizando el Global Genome Set, un equipo en el Reino Unido y Australia secuenció miles de aislamientos de Streptococcus del grupo A recolectados a nivel mundial , proporcionando objetivos potenciales para desarrollar una vacuna contra el patógeno, también conocido como S. pyogenes.

Investigar

La genómica comparada también abre nuevas vías en otras áreas de investigación. A medida que la tecnología de secuenciación de ADN se ha vuelto más accesible, ha aumentado el número de genomas secuenciados. Con el creciente depósito de datos genómicos disponibles, la potencia de la inferencia genómica comparativa también ha aumentado.

Un caso notable de este aumento de potencia se encuentra en una investigación reciente sobre primates. Los métodos genómicos comparativos han permitido a los investigadores recopilar información sobre la variación genética, la expresión diferencial de genes y la dinámica evolutiva en primates que eran imperceptibles utilizando datos y métodos anteriores.

Proyecto Genoma del Gran Simio

El Great Ape Genome Project utilizó métodos genómicos comparativos para investigar la variación genética con referencia a las seis especies de grandes simios , encontrando niveles saludables de variación en su acervo genético a pesar de la reducción del tamaño de la población. Otro estudio mostró que los patrones de metilación del ADN, que son un mecanismo de regulación conocido para la expresión génica, difieren en la corteza prefrontal de los humanos frente a los de los chimpancés, e implican esta diferencia en la divergencia evolutiva de las dos especies.

Ver también

Referencias

Otras lecturas

enlaces externos