Correlación de distancia - Distance correlation

En estadística y en teoría de la probabilidad , la correlación de distancia o la covarianza de distancia es una medida de dependencia entre dos vectores aleatorios emparejados de dimensión arbitraria, no necesariamente igual . El coeficiente de correlación de la distancia de la población es cero si y solo si los vectores aleatorios son independientes . Por lo tanto, la correlación de distancia mide la asociación lineal y no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con la correlación de Pearson , que solo puede detectar una asociación lineal entre dos variables aleatorias .

La correlación de distancia se puede utilizar para realizar una prueba estadística de dependencia con una prueba de permutación . Primero se calcula la correlación de distancia (que implica el re-centrado de matrices de distancia euclidianas) entre dos vectores aleatorios, y luego se compara este valor con las correlaciones de distancia de muchas combinaciones de datos.

Varios conjuntos de ( xy ) puntos, con el coeficiente de correlación distancia de x y y para cada conjunto. Compare con el gráfico de correlación

Fondo

La medida clásica de dependencia, el coeficiente de correlación de Pearson , es principalmente sensible a una relación lineal entre dos variables. La correlación de distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para abordar esta deficiencia de la correlación de Pearson , es decir, que puede ser fácilmente cero para las variables dependientes. La correlación = 0 (falta de correlación) no implica independencia, mientras que la correlación de distancia = 0 implica independencia. Los primeros resultados sobre la correlación de distancia se publicaron en 2007 y 2009. Se demostró que la covarianza de la distancia es la misma que la covarianza browniana. Estas medidas son ejemplos de distancias energéticas .

La correlación distancia se deriva de una serie de otras cantidades que se utilizan en su especificación, específicamente: varianza distancia , desviación estándar distancia , y covarianza distancia . Estas cantidades asumen los mismos roles que los momentos ordinarios con los nombres correspondientes en la especificación del coeficiente de correlación producto-momento de Pearson .

Definiciones

Covarianza de distancia

Comencemos con la definición de la covarianza de la distancia muestral . Sea ( X kY k ), k  = 1, 2, ..., n una muestra estadística de un par de variables aleatorias de valor real o de valor vectorial ( XY ). Primero, calcule las matrices de distancia n por n ( a j , k ) y ( b j , k ) que contienen todas las distancias por pares

donde || ⋅ || denota norma euclidiana . Luego toma todas las distancias doblemente centradas

donde es la media de la j -ésima fila, es la media de la k -ésima columna y es la gran media de la matriz de distancias de la muestra X. La notación es similar para los valores b . (En las matrices de distancias centradas ( A j , k ) y ( B j , k ) todas las filas y todas las columnas suman cero.) La covarianza de la distancia de la muestra al cuadrado (un escalar) es simplemente el promedio aritmético de los productos A j , k B j , k :

El estadístico T n = n dCov 2 n ( X , Y ) determina una prueba multivariante consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para una aplicación ver dcov.test función en la energía paquete para R .

El valor poblacional de la covarianza de la distancia se puede definir siguiendo las mismas líneas. Sea X una variable aleatoria que toma valores en un espacio euclidiano p -dimensional con distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano q -dimensional con distribución de probabilidad ν , y suponga que X e Y tienen una distribución de probabilidad finita Expectativas. Escribir

Finalmente, defina el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como

Se puede demostrar que esto es equivalente a la siguiente definición:

donde E denota el valor esperado, y son independientes e idénticamente distribuidos. Las variables aleatorias primed y denotan copias independientes e idénticamente distribuidas (iid) de las variables y y son igualmente iid. La covarianza de distancia se puede expresar en términos de la covarianza de Pearson clásica , cov , de la siguiente manera:

Esta identidad muestra que la covarianza de la distancia no es la misma que la covarianza de las distancias, cov (|| X - X ' ||, || Y - Y' || ). Esto puede ser cero incluso si X e Y no son independientes.

Alternativamente, la covarianza de la distancia se puede definir como la norma L 2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales:

donde ,, y son las funciones características de ( X , Y ), X e Y , respectivamente, p , q denotan la dimensión euclidiana de X e Y , y por tanto de s y t , y c p , c q son constantes. La función de ponderación se elige para producir una medida equivariante de escala e invariante de rotación que no llega a cero para las variables dependientes. Una interpretación de la definición de función característica es que las variables ae ISX y e IUDAD son representaciones cíclicas de X y Y con diferentes períodos dadas por s y t , y la expresión φ X , Y ( s , t ) - φ X ( s ) ϕ Y ( t ) en el numerador de la definición de función característica de la covarianza de distancia es simplemente la covarianza clásica de e isX y e itY . La definición de función característica muestra claramente que dCov 2 ( X , Y ) = 0 si y solo si X e Y son independientes.

Varianza de distancia y desviación estándar de distancia

La varianza de la distancia es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor poblacional de la varianza de la distancia es la raíz cuadrada de

donde , , y son independientes e idénticamente distribuidos variables aleatorias , denota el valor esperado , y para la función , por ejemplo, .

La varianza de la distancia muestral es la raíz cuadrada de

que es un pariente de la diferencia de medias de Corrado Gini introducida en 1912 (pero Gini no trabajó con distancias centradas).

La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia .

Correlación de distancia

La correlación de distancia de dos variables aleatorias se obtiene dividiendo su covarianza de distancia por el producto de sus desviaciones estándar de distancia . La correlación de distancia es

y la correlación de la distancia de la muestra se define sustituyendo la covarianza de la distancia de la muestra y las varianzas de la distancia por los coeficientes de población anteriores.

Para un fácil cálculo de correlación distancia de muestra ver el décor función en la energía de paquete para R .

Propiedades

Correlación de distancia

  1. y ; esto contrasta con la correlación de Pearson, que puede ser negativa.
  2. si y solo si X e Y son independientes.
  3. implica que las dimensiones de los subespacios lineales atravesado por X y Y muestras respectivamente son casi seguramente igual y si suponemos que estos subespacios son iguales, entonces en este subespacio por algún vector A , escalar b , y matriz ortonormal .

Covarianza de distancia

  1. y ;
  2. para todos los vectores constantes , escalares y matrices ortonormales .
  3. Si los vectores aleatorios y son independientes entonces
    La igualdad es válida si y solo si y son ambos constantes, o y son ambos constantes, o son mutuamente independientes.
  4. si y solo si X e Y son independientes.

Esta última propiedad es el efecto más importante de trabajar con distancias centradas.

La estadística es un estimador sesgado de . Bajo la independencia de X e Y

Székely y Rizzo dan un estimador insesgado de .

Varianza de distancia

  1. si y solo si es casi seguro.
  2. si y solo si todas las observaciones de la muestra son idénticas.
  3. para todos los vectores constantes A , escalares by matrices ortonormales .
  4. Si X e Y son independientes, entonces .

La igualdad se cumple en (iv) si y solo si una de las variables aleatorias X o Y es una constante.

Generalización

La covarianza de distancia se puede generalizar para incluir potencias de distancia euclidiana. Definir

Entonces para todos , y son independientes si y solo si . Es importante señalar que esta caracterización no es válida para el exponente ; en este caso para bivariado , es una función determinista de la correlación de Pearson. Si y son potencias de las distancias correspondientes , entonces la covarianza de la distancia muestral se puede definir como el número no negativo para el cual

Uno puede extender a métrica-espacio -valued variables aleatorias y : Si tiene derecho en un espacio métrico con métrica , para definir , y (siempre es finito, es decir, tiene finito primer momento), . Entonces, si tiene ley (en un espacio métrico posiblemente diferente con un primer momento finito), defina

Esto no es negativo para todos estos si ambos espacios métricos tienen un tipo negativo. Aquí, un espacio métrico tiene tipo negativo si es isométrico a un subconjunto de un espacio de Hilbert . Si ambos espacios métricos tienen un tipo negativo fuerte, iff son independientes.

Definición alternativa de covarianza de distancia

La covarianza de distancia original se ha definido como la raíz cuadrada de , en lugar del propio coeficiente al cuadrado. tiene la propiedad de que es la distancia de energía entre la distribución conjunta de y el producto de sus marginales. Sin embargo, según esta definición, la varianza de la distancia, en lugar de la desviación estándar de la distancia, se mide en las mismas unidades que las distancias.

Alternativamente, se podría definir la covarianza de la distancia como el cuadrado de la distancia de energía: en este caso, la desviación estándar de la distancia de se mide en las mismas unidades que la distancia, y existe un estimador insesgado para la covarianza de la distancia de la población.

Bajo estas definiciones alternativas, la correlación de distancia también se define como el cuadrado , en lugar de la raíz cuadrada.

Formulación alternativa: covarianza browniana

La covarianza browniana está motivada por la generalización de la noción de covarianza a procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:

donde E denota el valor esperado y el primo denota copias independientes e idénticamente distribuidas. Necesitamos la siguiente generalización de esta fórmula. Si U (s), V (t) son procesos aleatorios arbitrarios definidos para todos los syt reales, defina la versión centrada en U de X por

siempre que exista el valor esperado condicional restado y denote por Y V la versión centrada en V de Y. La covarianza (U, V) de (X, Y) se define como el número no negativo cuyo cuadrado es

siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos independientes de dos lados / procesos de Wiener con expectativa cero y covarianza | s | + | t | - | s - t | = 2 min ( s , t ) (solo para s no negativos, t). (Esto es el doble de la covarianza del proceso de Wiener estándar; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza ( U , V ) se llama covarianza browniana y se denota por

Hay una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de distancia:

y así la correlación browniana es lo mismo que la correlación de distancia.

Por otro lado, si reemplazamos el movimiento browniano con la función de identidad determinista id, entonces Cov id ( X , Y ) es simplemente el valor absoluto de la covarianza clásica de Pearson ,

Métricas relacionadas

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en el núcleo (como el criterio de independencia de Hilbert-Schmidt o HSIC) también pueden detectar interacciones lineales y no lineales. Tanto la correlación de distancia como las métricas basadas en el núcleo se pueden utilizar en métodos como el análisis de correlación canónica y el análisis de componentes independientes para producir un poder estadístico más fuerte .

Ver también

Notas

Referencias

enlaces externos