Estructura de la población (genética) - Population structure (genetics)

La estructura de la población (también llamada estructura genética y estratificación de la población ) es la presencia de una diferencia sistemática en las frecuencias de los alelos entre subpoblaciones de una población como resultado del apareamiento no aleatorio entre individuos. Puede ser informativo de la ascendencia genética y, en el contexto de la genética médica, es una variable de confusión importante en los estudios de asociación de todo el genoma (GWAS).

Descripción

La causa básica de la estructura de la población en las especies que se reproducen sexualmente es el apareamiento no aleatorio entre grupos: si todos los individuos dentro de una población se aparean al azar, las frecuencias alélicas deberían ser similares entre los grupos. La estructura de la población surge comúnmente de la separación física por distancia o barreras, como montañas y ríos, seguida de deriva genética . Otras causas incluyen el flujo de genes de las migraciones, los cuellos de botella y las expansiones de la población , los efectos del fundador , la presión evolutiva , el azar aleatorio y (en los seres humanos) factores culturales. Incluso en lugar de estos factores, los individuos tienden a permanecer cerca de donde nacieron, lo que significa que los alelos no se distribuirán al azar con respecto a la gama completa de especies.

Medidas

La estructura de la población es un fenómeno complejo y ninguna medida única lo captura por completo. Comprender la estructura de una población requiere una combinación de métodos y medidas. Muchos métodos estadísticos se basan en modelos de población simples para inferir cambios demográficos históricos, como la presencia de cuellos de botella en la población, eventos de mezcla o tiempos de divergencia de la población. A menudo, estos métodos se basan en el supuesto de panmictia u homogeneidad en una población ancestral. La especificación incorrecta de tales modelos, por ejemplo, al no tener en cuenta la existencia de estructura en una población ancestral, puede dar lugar a estimaciones de parámetros muy sesgadas. Los estudios de simulación muestran que la estructura histórica de la población puede incluso tener efectos genéticos que pueden malinterpretarse fácilmente como cambios históricos en el tamaño de la población o la existencia de eventos de mezcla, incluso cuando no ocurrieron tales eventos.

Heterocigosidad

Un cuello de botella poblacional puede resultar en una pérdida de heterocigosidad. En esta población hipotética, un alelo se ha vuelto fijo después de que la población bajó repetidamente de 10 a 3.

Uno de los resultados de la estructura de la población es una reducción de la heterocigosidad . Cuando las poblaciones se dividen, los alelos tienen una mayor probabilidad de alcanzar la fijación dentro de las subpoblaciones, especialmente si las subpoblaciones son pequeñas o han estado aisladas durante períodos prolongados. Esta reducción de la heterocigosidad se puede considerar como una extensión de la endogamia , y es más probable que los individuos de las subpoblaciones compartan un ancestro común reciente . La escala es importante: un individuo con ambos padres nacidos en el Reino Unido no es endogámico en relación con la población de ese país, pero es más endogámico que dos humanos seleccionados de todo el mundo. Esto motiva la derivación de las estadísticas F de Wright (también llamadas "índices de fijación"), que miden la endogamia a través de la heterocigosidad observada frente a la esperada. Por ejemplo, mide el coeficiente de consanguinidad en un solo locus para un individuo en relación con alguna subpoblación :

Aquí, es la fracción de individuos en la subpoblación que son heterocigotos. Suponiendo que hay dos alelos, que ocurren en frecuencias respectivas , se espera que bajo apareamiento aleatorio la subpoblación tenga una tasa de heterocigosidad de . Luego:

De manera similar, para la población total , podemos definir lo que nos permite calcular la heterocigosidad esperada de la subpoblación y el valor como:

Si F es 0, entonces las frecuencias alélicas entre poblaciones son idénticas, lo que sugiere que no hay estructura. El valor máximo teórico de 1 se alcanza cuando un alelo alcanza la fijación total, pero la mayoría de los valores máximos observados son mucho más bajos. F ST es una de las medidas más comunes de la estructura de la población y existen varias formulaciones diferentes según el número de poblaciones y los alelos de interés. Aunque a veces se usa como una distancia genética entre poblaciones, no siempre satisface la desigualdad del triángulo y, por lo tanto, no es una métrica . También depende de la diversidad dentro de la población, lo que dificulta la interpretación y la comparación.

Inferencia de la mezcla

El genotipo de un individuo puede modelarse como una mezcla entre K grupos discretos de poblaciones. Cada grupo se define por las frecuencias de sus genotipos, y la contribución de un grupo a los genotipos de un individuo se mide mediante un estimador . En 2000, Jonathan K. Pritchard introdujo el algoritmo STRUCTURE para estimar estas proporciones a través de la cadena de Markov Monte Carlo , modelando las frecuencias alélicas en cada locus con una distribución de Dirichlet . Desde entonces, se han desarrollado algoritmos (como ADMIXTURE) utilizando otras técnicas de estimación. Las proporciones estimadas se pueden visualizar mediante gráficos de barras: cada barra representa a un individuo y se subdivide para representar la proporción de la ascendencia genética de un individuo de una de las K poblaciones.

Variando K puede ilustrar diferentes escalas de estructura de población; el uso de un K pequeño para toda la población humana subdividirá a las personas aproximadamente por continente, mientras que el uso de un K grande dividirá las poblaciones en subgrupos más finos. Aunque los métodos de agrupamiento son populares, están abiertos a malas interpretaciones: para datos no simulados, nunca hay un valor "verdadero" de K , sino una aproximación considerada útil para una pregunta determinada. Son sensibles a las estrategias de muestreo, el tamaño de la muestra y los parientes cercanos en los conjuntos de datos; puede que no haya poblaciones diferenciadas en absoluto; y puede haber una estructura jerárquica donde se anidan las subpoblaciones. Los conglomerados pueden mezclarse ellos mismos y pueden no tener una interpretación útil como poblaciones de origen.

Un estudio de la estructura de la población de humanos en el norte de África y las poblaciones vecinas modelado utilizando ADMIXTURE y asumiendo K = 2,4,6,8 poblaciones (Figura B, de arriba a abajo). Variar K cambia la escala de agrupamiento. En K = 2, el 80% de la ascendencia inferida para la mayoría de los norteafricanos se asigna a un grupo que es común a los individuos árabes vascos, toscanos y qataríes (en púrpura). En K = 4, aparecen clines de ascendencia norteafricana (en azul claro). En K = 6, aparecen clines opuestos de ascendencia del Cercano Oriente (Qatarí) (en verde). En K = 8, los bereberes tunecinos aparecen como un grupo (en azul oscuro).

Reducción de dimensionalidad

Un mapa de la ubicación de las muestras genéticas de varias poblaciones africanas (izquierda) y los componentes principales 1 y 2 de los datos superpuestos en el mapa (derecha). El plano de coordenadas principal se ha girado 16,11 ° para alinearlo con el mapa. Corresponde a las distribuciones este-oeste y norte-sur de las poblaciones.

Los datos genéticos son de alta dimensión y las técnicas de reducción de dimensionalidad pueden capturar la estructura de la población. El análisis de componentes principales (PCA) se aplicó por primera vez en genética de poblaciones en 1978 por Cavalli-Sforza y sus colegas y resurgió con la secuenciación de alto rendimiento . Inicialmente, el PCA se usó en frecuencias alélicas en marcadores genéticos conocidos para poblaciones, aunque más tarde se descubrió que al codificar los SNP como números enteros (por ejemplo, como el número de alelos que no son de referencia ) y normalizar los valores, el PCA podría aplicarse al nivel de los individuos. Una formulación considera individuos y SNP bialélicos. Para cada individuo , el valor en el locus es el número de alelos que no son de referencia (uno de ). Si la frecuencia alélica en es , entonces la matriz resultante de genotipos normalizados tiene entradas:

PCA transforma los datos para maximizar la varianza; dados suficientes datos, cuando cada individuo se visualiza como un punto en una parcela, se pueden formar grupos discretos. Los individuos con ascendencia mixta tenderán a caer entre grupos, y cuando hay un aislamiento homogéneo por distancia en los datos, los principales vectores de PC reflejarán la variación geográfica. Los autovectores generados por PCA se pueden escribir explícitamente en términos de tiempos de coalescencia medios para pares de individuos, lo que hace que PCA sea útil para inferencias sobre las historias de población de grupos en una muestra determinada. Sin embargo, PCA no puede distinguir entre diferentes procesos que conducen a los mismos tiempos medios de coalescencia.

La escala multidimensional y el análisis discriminante se han utilizado para estudiar la diferenciación, la asignación de poblaciones y para analizar las distancias genéticas. Los enfoques de gráficos de vecindad como la incrustación de vecinos estocásticos distribuidos en t (t-SNE) y la aproximación y proyección de múltiples uniformes (UMAP) pueden visualizar la estructura continental y subcontinental en datos humanos. Con conjuntos de datos más grandes, UMAP captura mejor múltiples escalas de estructura de población; los patrones de escala fina se pueden ocultar o dividir con otros métodos, y estos son de interés cuando el rango de poblaciones es diverso, cuando hay poblaciones mezcladas o cuando se examinan las relaciones entre genotipos, fenotipos y / o geografía. Los autocodificadores variacionales pueden generar genotipos artificiales con estructura representativa de los datos de entrada, aunque no recrean patrones de desequilibrio de ligamiento.

Inferencia demográfica

La estructura de la población es un aspecto importante de la genética evolutiva y de la población . Eventos como las migraciones y las interacciones entre grupos dejan una huella genética en las poblaciones. Las poblaciones mezcladas tendrán trozos de haplotipos de sus grupos ancestrales, que se encogen gradualmente con el tiempo debido a la recombinación . Al explotar este hecho y hacer coincidir fragmentos de haplotipos compartidos de individuos dentro de un conjunto de datos genéticos, los investigadores pueden rastrear y fechar los orígenes de la mezcla de poblaciones y reconstruir eventos históricos como el auge y la caída de los imperios, el comercio de esclavos, el colonialismo y las expansiones de la población.

Papel en la epidemiología genética

La estructura de la población puede ser un problema para los estudios de asociación , como los estudios de casos y controles , donde la asociación entre el rasgo de interés y el locus podría ser incorrecta. Como ejemplo, en una población de estudio de europeos y asiáticos orientales, un estudio de asociación del uso de palillos puede "descubrir" un gen en los individuos asiáticos que conduce al uso de palillos. Sin embargo, esta es una relación falsa ya que la variante genética es simplemente más común en asiáticos que en europeos. Además, los hallazgos genéticos reales pueden pasarse por alto si el locus es menos prevalente en la población donde se eligen los sujetos del caso. Por esta razón, era común en la década de 1990 utilizar datos basados ​​en la familia donde el efecto de la estructura de la población se puede controlar fácilmente mediante el uso de métodos como la prueba de desequilibrio de transmisión (TDT).

Los fenotipos (rasgos medibles), como la altura o el riesgo de enfermedad cardíaca, son el producto de alguna combinación de genes y medio ambiente . Estos rasgos se pueden predecir utilizando puntuaciones poligénicas , que buscan aislar y estimar la contribución de la genética a un rasgo sumando los efectos de muchas variantes genéticas individuales. Para construir una puntuación, los investigadores primero inscriben a los participantes en un estudio de asociación para estimar la contribución de cada variante genética. Luego, pueden usar las contribuciones estimadas de cada variante genética para calcular una puntuación para el rasgo de un individuo que no estaba en el estudio de asociación original. Si la estructura en la población de estudio se correlaciona con la variación ambiental, entonces la puntuación poligénica ya no mide el componente genético solo.

Varios métodos pueden controlar, al menos parcialmente, este efecto de confusión. El método de control genómico se introdujo en 1999 y es un método relativamente no paramétrico para controlar la inflación de las estadísticas de prueba . También es posible utilizar marcadores genéticos no vinculados para estimar las proporciones de ascendencia de cada individuo de algunas subpoblaciones K , que se supone que no están estructuradas. Los enfoques más recientes hacen uso del análisis de componentes principales (PCA), como lo demostraron Alkes Price y sus colegas, o al derivar una matriz de relación genética (también llamada matriz de parentesco) e incluirla en un modelo lineal mixto (LMM).

PCA y LMM se han convertido en los métodos más comunes para controlar los factores de confusión de la estructura de la población. Aunque probablemente sean suficientes para evitar falsos positivos en los estudios de asociación, aún son vulnerables a sobreestimar los tamaños del efecto de las variantes marginalmente asociadas y pueden sesgar sustancialmente las estimaciones de las puntuaciones poligénicas y la heredabilidad de los rasgos . Si los efectos ambientales están relacionados con una variante que existe en una sola región específica (por ejemplo, un contaminante se encuentra en una sola ciudad), es posible que no sea posible corregir este efecto de estructura de la población en absoluto. Para muchos rasgos, el papel de la estructura es complejo y no se comprende completamente, y su incorporación a los estudios genéticos sigue siendo un desafío y es un área activa de investigación.

Referencias