Coeficiente de correlación de Pearson - Pearson correlation coefficient

En estadísticas , el coeficiente de correlación de Pearson ( PCC , pronunciado / p ɪər s ən / ) - también conocido como de Pearson r , el Pearson coeficiente de correlación momento-producto ( PPMCC ), la correlación bivariada , o coloquialmente simplemente como el coeficiente de correlación - es una medida de correlación lineal entre dos conjuntos de datos. Es la razón entre la covarianza de dos variables y el producto de sus desviaciones estándar ; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre -1 y 1. Al igual que con la covarianza en sí, la medida solo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relación o correlación. . Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de adolescentes de una escuela secundaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).

Ejemplos de diagramas de dispersión con diferentes valores de coeficiente de correlación ( ρ )
Varios conjuntos de ( xy ) puntos, con el coeficiente de correlación de x y y para cada conjunto. Tenga en cuenta que la correlación refleja la fuerza y ​​la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (medio), ni muchos aspectos de las relaciones no lineales (abajo). NB: la figura del centro tiene una pendiente de 0 pero en ese caso el coeficiente de correlación no está definido porque la varianza de Y es cero.

Naming e historia

Fue desarrollado por Karl Pearson a partir de una idea relacionada introducida por Francis Galton en la década de 1880, y para la cual la fórmula matemática fue derivada y publicada por Auguste Bravais en 1844. La denominación del coeficiente es, por tanto, un ejemplo de la Ley de Stigler .

Definición

El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La forma de la definición implica un "momento producto", es decir, la media (el primer momento sobre el origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador producto-momento en el nombre.

Para una población

El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación de población o coeficiente de correlación de Pearson de población . Dado un par de variables aleatorias , la fórmula para ρ es:

 

 

 

 

( Ecuación 1 )

dónde:

es la covarianza
es la desviación estándar de
es la desviación estándar de

La fórmula para se puede expresar en términos de media y expectativa. Ya que

la fórmula para también se puede escribir como

 

 

 

 

( Ecuación 2 )

dónde:

y se definen como arriba
es la media de
es la media de
es la expectativa .

La fórmula para se puede expresar en términos de momentos no centrados. Ya que

la fórmula para también se puede escribir como

Para una muestra

El coeficiente de correlación de Pearson, cuando se aplica a una muestra , se representa comúnmente por y puede denominarse coeficiente de correlación de la muestra o coeficiente de correlación de Pearson de la muestra . Podemos obtener una fórmula para sustituyendo estimaciones de las covarianzas y varianzas basadas en una muestra en la fórmula anterior. Dados los datos emparejados que constan de pares, se define como:

 

 

 

 

( Ecuación 3 )

dónde:

es el tamaño de la muestra
¿Están los puntos de muestra individuales indexados con i
(la media de la muestra); y análogamente para

El reordenamiento nos da esta fórmula para :

donde se definen como arriba.

Esta fórmula sugiere un algoritmo conveniente de un solo paso para calcular las correlaciones de la muestra, aunque dependiendo de los números involucrados, a veces puede ser numéricamente inestable .

Reorganizar nuevamente nos da esta fórmula para :

donde se definen como arriba.

Una expresión equivalente da la fórmula para como la media de los productos de las puntuaciones estándar de la siguiente manera:

dónde:

se definen como anteriormente y se definen a continuación
es la puntuación estándar (y análogamente a la puntuación estándar de )

También se encuentran disponibles fórmulas alternativas para . Por ejemplo. se puede utilizar la siguiente fórmula para :

dónde:

se definen como anteriormente y:
(la desviación estándar de la muestra); y análogamente para

Cuestiones prácticas

En condiciones de ruido intenso, extraer el coeficiente de correlación entre dos conjuntos de variables estocásticas no es trivial, en particular cuando el análisis de correlación canónica informa valores de correlación degradados debido a las contribuciones de ruido intenso. En otro lugar se ofrece una generalización del enfoque.

En caso de que falten datos, Garren derivó el estimador de máxima verosimilitud .

Propiedades matematicas

Los valores absolutos de los coeficientes de correlación de Pearson de la muestra y la población están entre 0 y 1. Las correlaciones iguales a +1 o −1 corresponden a puntos de datos que se encuentran exactamente en una línea (en el caso de la correlación de la muestra), oa un distribución bivariada totalmente apoyada en una línea (en el caso de la correlación poblacional). El coeficiente de correlación de Pearson es simétrico: corr ( X , Y ) = corr ( Y , X ).

Una propiedad matemática clave del coeficiente de correlación de Pearson es que es invariante bajo cambios separados de ubicación y escala en las dos variables. Es decir, es posible transformar X a un  +  bX y transformar Y a c  +  dY , donde un , b , c , y d son constantes con b , d > 0 , sin cambiar el coeficiente de correlación. (Esto es válido tanto para la población como para los coeficientes de correlación de Pearson de la muestra). Tenga en cuenta que las transformaciones lineales más generales cambian la correlación: consulte § Descorrelación de n variables aleatorias para una aplicación de esto.

Interpretación

El coeficiente de correlación varía de -1 a 1. Un valor absoluto de exactamente 1 implica que una ecuación lineal describe la relación entre X e Y perfectamente, con todos los puntos de datos en una línea . El signo de correlación está determinado por la pendiente de regresión : un valor de +1 implica que todos los puntos de datos se encuentran en una línea para la cual Y aumenta a medida que aumenta X , y viceversa para -1. Un valor de 0 implica que no existe una dependencia lineal entre las variables.

De manera más general, tenga en cuenta que ( X i  -  X ) ( Y i  -  Y ) es positivo si y solo si X i e Y i se encuentran en el mismo lado de sus respectivas medias. Por tanto, el coeficiente de correlación es positivo si X i e Y i tienden a ser simultáneamente mayores o simultáneamente menores que sus respectivas medias. El coeficiente de correlación es negativo ( anticorrelación ) si X i e Y i tienden a estar en lados opuestos de sus respectivas medias. Además, cuanto más fuerte es una de las tendencias, mayor es el valor absoluto del coeficiente de correlación.

Rodgers y Nicewander catalogaron trece formas de interpretar la correlación o funciones simples de la misma:

  • Función de puntuaciones brutas y medias
  • Covarianza estandarizada
  • Pendiente estandarizada de la línea de regresión
  • Media geométrica de las dos pendientes de regresión
  • Raíz cuadrada de la razón de dos varianzas
  • Producto cruzado medio de variables estandarizadas
  • Función del ángulo entre dos líneas de regresión estandarizadas
  • Función del ángulo entre dos vectores variables
  • Varianza reescalada de la diferencia entre puntuaciones estandarizadas
  • Estimado a partir de la regla del globo
  • Relacionado con las elipses bivariadas de isoconcentración
  • Función de las estadísticas de prueba de experimentos diseñados
  • Razón de dos medias

Interpretación geométrica

Líneas de regresión para y = g X ( x ) [ rojo ] y x = g Y ( y ) [ azul ]

Para los datos no centrados, existe una relación entre el coeficiente de correlación y el ángulo φ entre las dos líneas de regresión, y = g X ( x ) y x = g Y ( y ) , obtenido al hacer una regresión de y sobre x y x sobre y respectivamente. (Aquí, φ se mide en sentido antihorario dentro del primer cuadrante formado alrededor del punto de intersección de las líneas si r > 0 , o en sentido antihorario desde el cuarto al segundo cuadrante si r <0 .) Se puede demostrar que si las desviaciones estándar son iguales, entonces r = sec φ - tan φ , donde sec y tan son funciones trigonométricas .

Para datos centrados (es decir, datos que han sido desplazados por las medias muestrales de sus respectivas variables para tener un promedio de cero para cada variable), el coeficiente de correlación también puede verse como el coseno del ángulo θ entre los dos observados. vectores en el espacio N -dimensional (para N observaciones de cada variable)

Los coeficientes de correlación centrados y no centrados (no compatibles con Pearson) se pueden determinar para un conjunto de datos. Como ejemplo, suponga que se encuentra que cinco países tienen productos nacionales brutos de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Suponga que se encuentra que estos mismos cinco países (en el mismo orden) tienen 11%, 12%, 13%, 15% y 18% de pobreza. A continuación, vamos x y y pueden pedir vectores de 5 elementos que contienen los datos anteriores: x = (1, 2, 3, 5, 8) y Y = (0.11, 0.12, 0.13, 0.15, 0.18) .

Por el procedimiento habitual para encontrar el ángulo θ entre dos vectores (ver producto escalar ), el coeficiente de correlación no centrado es:

Este coeficiente de correlación no centrado es idéntico a la similitud del coseno . Tenga en cuenta que los datos anteriores se eligieron deliberadamente para que estuvieran perfectamente correlacionados: y = 0,10 + 0,01 x . Por tanto, el coeficiente de correlación de Pearson debe ser exactamente uno. Centrando los datos (desplazando x en ℰ ( x ) = 3.8 y y en ℰ ( y ) = 0.138 ) se obtiene x = (−2.8, −1.8, −0.8, 1.2, 4.2) y y = (−0.028, −0.018, −0,008, 0,012, 0,042) , de la cual

como se esperaba.

Interpretación del tamaño de una correlación

Esta figura da una idea de cómo la utilidad de una correlación de Pearson para predecir valores varía con su magnitud. Teniendo en cuenta conjuntamente normales X , Y con correlación ρ , (trazada aquí como una función de ρ ) es el factor por el cual un determinado intervalo de predicción para Y puede ser reducido dado el valor correspondiente de X . Por ejemplo, si ρ = 0,5, entonces el intervalo de predicción del 95% de Y | X será de aproximadamente 13% más pequeño que el intervalo de predicción de 95% de Y .

Varios autores han ofrecido pautas para la interpretación de un coeficiente de correlación. Sin embargo, todos estos criterios son en cierto modo arbitrarios. La interpretación de un coeficiente de correlación depende del contexto y los propósitos. Una correlación de 0,8 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, pero puede considerarse muy alta en las ciencias sociales, donde puede haber una mayor contribución de los factores de complicación.

Inferencia

La inferencia estadística basada en el coeficiente de correlación de Pearson a menudo se centra en uno de los dos objetivos siguientes:

  • Un objetivo es probar la hipótesis nula de que el verdadero coeficiente de correlación ρ es igual a 0, basado en el valor del coeficiente de correlación muestral r .
  • El otro objetivo es derivar un intervalo de confianza que, en un muestreo repetido, tenga una probabilidad determinada de contener ρ .

A continuación, analizamos los métodos para lograr uno o ambos objetivos.

Usando una prueba de permutación

Las pruebas de permutación proporcionan un enfoque directo para realizar pruebas de hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente de correlación de Pearson implica los siguientes dos pasos:

  1. Usando los datos emparejados originales ( x iy i ), redefina aleatoriamente los pares para crear un nuevo conjunto de datos ( x iy i ′ ), donde i ′ son una permutación del conjunto {1, ..., n }. La permutación i ′ se selecciona al azar, con probabilidades iguales colocadas en todos los n ! posibles permutaciones. Esto es equivalente a dibujar la i ′ aleatoriamente sin reemplazo del conjunto {1, ..., n }. En bootstrapping , un enfoque estrechamente relacionado, la i y la i ′ son iguales y se extraen con reemplazo de {1, ..., n };
  2. Construya un coeficiente de correlación r a partir de los datos aleatorizados.

Para realizar la prueba de permutación, repita los pasos (1) y (2) una gran cantidad de veces. El valor p para la prueba de permutación es la proporción de los valores r generados en el paso (2) que son mayores que el coeficiente de correlación de Pearson que se calculó a partir de los datos originales. Aquí, "mayor" puede significar que el valor es mayor en magnitud o mayor en valor con signo, dependiendo de si se desea una prueba de dos o un lado .

Usando un bootstrap

El bootstrap se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En el bootstrap "no paramétrico", n pares ( x iy i ) se vuelven a muestrear "con reemplazo" del conjunto observado de n pares, y el coeficiente de correlación r se calcula en base a los datos remuestreados. Este proceso se repite un gran número de veces y la distribución empírica de los valores r remuestreados se utilizan para aproximar la distribución muestral del estadístico. Un intervalo de confianza del 95% para ρ se puede definir como el intervalo que abarca desde el percentil 2.5 al 97.5 de los valores r remuestreados .

Prueba usando la distribución t de Student

Valores críticos del coeficiente de correlación de Pearson que deben excederse para ser considerados significativamente distintos de cero en el nivel 0.05.

Para los pares de una distribución normal bivariada no correlacionada , la distribución muestral de una determinada función del coeficiente de correlación de Pearson sigue la distribución t de Student con grados de libertad n  - 2. Específicamente, si las variables subyacentes tienen una distribución normal bivariada, la variable

tiene una distribución t de estudiante en el caso nulo (correlación cero). Esto es válido aproximadamente en el caso de valores observados anormales si los tamaños de muestra son lo suficientemente grandes. Para determinar los valores críticos de r se necesita la función inversa:

Alternativamente, se pueden utilizar enfoques asintóticos de muestra grande.

Otro artículo anterior proporciona gráficos y tablas para valores generales de ρ , para tamaños de muestra pequeños, y analiza enfoques computacionales.

En el caso de que las variables subyacentes no sean normales, la distribución muestral del coeficiente de correlación de Pearson sigue una distribución t de Student, pero los grados de libertad se reducen.

Usando la distribución exacta

Para los datos que siguen una distribución normal bivariada , la función de densidad exacta f ( r ) para el coeficiente de correlación muestral r de un bivariado normal es

donde es la función gamma y es la función hipergeométrica gaussiana .

En el caso especial cuando , la función de densidad exacta f ( r ) se puede escribir como:

donde es la función beta , que es una forma de escribir la densidad de la distribución t de Student, como se indicó anteriormente.

Usando la distribución de confianza exacta

Los intervalos de confianza y las pruebas se pueden calcular a partir de una distribución de confianza . Una densidad de confianza exacta para ρ es

donde es la función hipergeométrica gaussiana y .

Usando la transformación de Fisher

En la práctica, los intervalos de confianza y pruebas de hipótesis relativas a ρ normalmente se llevan a cabo utilizando la transformación Fisher , :

F ( r ) sigue aproximadamente una distribución normal con

    y error estándar

donde n es el tamaño de la muestra. El error de aproximación es más bajo para un tamaño de muestra grande y pequeño y y aumenta de otra manera.

Usando la aproximación, una puntuación z es

bajo la hipótesis nula de que , dado el supuesto de que los pares de muestras son independientes e idénticamente distribuidos y siguen una distribución normal bivariada . Por tanto , se puede obtener un valor p aproximado a partir de una tabla de probabilidad normal. Por ejemplo, si  se observa z = 2.2 y se desea un valor p bilateral para probar la hipótesis nula de que , el valor p es 2 Φ (−2.2) = 0.028 , donde Φ es la función de distribución acumulativa normal estándar .

Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ):

La transformación inversa de Fisher devuelve el intervalo a la escala de correlación.

Por ejemplo, suponga que observamos r  = 0.3 con un tamaño de muestra de n = 50, y deseamos obtener un intervalo de confianza del 95% para ρ. El valor transformado es arctanh ( r ) = 0.30952, por lo que el intervalo de confianza en la escala transformada es 0.30952 ± 1.96 / 47 , o (0.023624, 0.595415). Convirtiendo de nuevo a la escala de correlación se obtiene (0.024, 0.534).

En análisis de regresión de mínimos cuadrados

El cuadrado del coeficiente de correlación de la muestra se denota típicamente como r 2 y es un caso especial del coeficiente de determinación . En este caso, estima la fracción de la varianza en Y que se explica por X en una regresión lineal simple . Entonces, si tenemos el conjunto de datos observado y el conjunto de datos ajustado, entonces, como punto de partida, la variación total en Y i alrededor de su valor promedio se puede descomponer de la siguiente manera

donde son los valores ajustados del análisis de regresión. Esto se puede reorganizar para dar

Los dos sumandos anteriores son la fracción de varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

A continuación, aplicamos una propiedad de los modelos de regresión de mínimos cuadrados, que la covarianza muestral entre y es cero. Por lo tanto, se puede escribir el coeficiente de correlación de la muestra entre los valores de respuesta observados y ajustados en la regresión (el cálculo está por debajo de las expectativas, asume estadísticas gaussianas)

Por lo tanto

dónde

es la proporción de la varianza en Y explica por una función lineal de X .

En la derivación anterior, el hecho de que

se puede demostrar observando que las derivadas parciales de la suma de cuadrados residual ( RSS ) sobre β 0 y β 1 son iguales a 0 en el modelo de mínimos cuadrados, donde

.

Al final, la ecuación se puede escribir como:

dónde

El símbolo se llama suma de cuadrados de regresión, también llamada suma de cuadrados explicada , y es la suma total de cuadrados (proporcional a la varianza de los datos).

Sensibilidad a la distribución de datos.

Existencia

El coeficiente de correlación de Pearson poblacional se define en términos de momentos y, por lo tanto, existe para cualquier distribución de probabilidad bivariada para la cual se define la covarianza poblacional y las varianzas poblacionales marginales están definidas y son distintas de cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy, tienen una varianza indefinida y, por lo tanto, ρ no se define si X o Y siguen dicha distribución. En algunas aplicaciones prácticas, como las que involucran datos que se sospecha que siguen una distribución de cola pesada , esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación no suele ser motivo de preocupación; por ejemplo, si el rango de la distribución está acotado, siempre se define ρ.

Tamaño de la muestra

  • Si el tamaño de la muestra es moderado o grande y la población es normal, entonces, en el caso de la distribución normal bivariada , el coeficiente de correlación muestral es la estimación de máxima verosimilitud del coeficiente de correlación poblacional, y es asintóticamente insesgado y eficiente , lo que significa aproximadamente que es imposible construir una estimación más precisa que el coeficiente de correlación muestral.
  • Si el tamaño de la muestra es grande y la población no es normal, entonces el coeficiente de correlación de la muestra permanece aproximadamente insesgado, pero puede no ser eficiente.
  • Si el tamaño de la muestra es grande, entonces el coeficiente de correlación de la muestra es un estimador consistente del coeficiente de correlación de la población siempre que las medias, las varianzas y la covarianza de la muestra sean consistentes (lo cual está garantizado cuando se puede aplicar la ley de los números grandes ).
  • Si el tamaño de la muestra es pequeño, entonces el coeficiente de correlación de la muestra r no es una estimación insesgada de ρ . En su lugar, debe utilizarse el coeficiente de correlación ajustado: consulte la definición en otra parte de este artículo.
  • Las correlaciones pueden ser diferentes para datos dicotómicos desequilibrados cuando hay un error de varianza en la muestra.

Robustez

Como muchas estadísticas de uso común, la estadística de muestra r no es robusta , por lo que su valor puede ser engañoso si existen valores atípicos . Específicamente, el PMCC no es robusto en cuanto a distribución ni resistente a valores atípicos (consulte Estadísticas sólidas # Definición ). La inspección del diagrama de dispersión entre X e Y normalmente revelará una situación en la que la falta de solidez podría ser un problema y, en tales casos, puede ser aconsejable utilizar una medida sólida de asociación. Sin embargo, tenga en cuenta que, si bien los estimadores de asociación más robustos miden la dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

La inferencia estadística del coeficiente de correlación de Pearson es sensible a la distribución de los datos. Se pueden aplicar pruebas exactas y pruebas asintóticas basadas en la transformación de Fisher si los datos están distribuidos aproximadamente normalmente, pero de lo contrario pueden ser engañosos. En algunas situaciones, el bootstrap se puede aplicar para construir intervalos de confianza y se pueden aplicar pruebas de permutación para realizar pruebas de hipótesis. Estos enfoques no paramétricos pueden dar resultados más significativos en algunas situaciones en las que no se mantiene la normalidad bivariada. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay ningún orden o agrupación de los pares de datos analizados que pueda afectar el comportamiento de la estimación de correlación.

Un análisis estratificado es una forma de adaptarse a la falta de normalidad bivariada o de aislar la correlación resultante de un factor mientras se controla por otro. Si W representa la pertenencia al conglomerado u otro factor que sea deseable controlar, podemos estratificar los datos en función del valor de W y luego calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones de nivel de estrato se pueden combinar para calcular la correlación global mientras se controla para W .

Variantes

Las variaciones del coeficiente de correlación se pueden calcular para diferentes propósitos. Aquí hay unos ejemplos.

Coeficiente de correlación ajustado

El coeficiente de correlación muestral r no es una estimación insesgada de ρ . Para los datos que siguen una distribución normal bivariada , la expectativa E [ r ] para el coeficiente de correlación muestral r de un bivariado normal es

por lo tanto, r es un estimador sesgado de

El estimador insesgado de varianza mínima única r adj viene dado por

 

 

 

 

( 1 )

dónde:

se definen como arriba,
es la función hipergeométrica gaussiana .

Se puede obtener un estimador r adj aproximadamente insesgado truncando E [ r ] y resolviendo esta ecuación truncada:

 

 

 

 

( 2 )

Una solución aproximada a la ecuación ( 2 ) es:

 

 

 

 

( 3 )

donde en ( 3 ):

se definen como arriba,
r adj es un estimador subóptimo,
r adj también se puede obtener maximizando log ( f ( r )),
r adj tiene una varianza mínima para valores grandes de n ,
r adj tiene un sesgo de orden 1( n - 1) .

Otro coeficiente de correlación ajustado propuesto es:

Tenga en cuenta que r adjr para valores grandes de  n .

Coeficiente de correlación ponderado

Suponga que las observaciones que se correlacionan tienen diferentes grados de importancia que se pueden expresar con un vector de ponderación w . Para el cálculo de la correlación entre los vectores x e y con el vector de pesos w (todo de longitud  n ),

  • Media ponderada:
  • Covarianza ponderada
  • Correlación ponderada

Coeficiente de correlación reflectante

La correlación reflexiva es una variante de la correlación de Pearson en la que los datos no se centran en sus valores medios. La correlación reflectante de la población es

La correlación reflexiva es simétrica, pero no es invariante en la traducción:

La correlación reflectante muestral es equivalente a la similitud del coseno :

La versión ponderada de la correlación reflexiva muestral es

Coeficiente de correlación escalado

La correlación escalada es una variante de la correlación de Pearson en la que el rango de los datos se restringe intencionalmente y de manera controlada para revelar correlaciones entre componentes rápidos en series de tiempo. La correlación escalada se define como la correlación promedio entre segmentos cortos de datos.

Sea el número de segmentos que pueden caber en la longitud total de la señal para una escala determinada :

La correlación escalada a través de todas las señales se calcula como

donde es el coeficiente de correlación de Pearson para el segmento .

Al elegir el parámetro , se reduce el rango de valores y se filtran las correlaciones en escalas de tiempo largas, revelando solo las correlaciones en escalas de tiempo cortas. Así, se eliminan las contribuciones de los componentes lentos y se retienen las de los componentes rápidos.

La distancia de Pearson

Una métrica de distancia para dos variables X e Y conocida como distancia de Pearson se puede definir a partir de su coeficiente de correlación como

Considerando que el coeficiente de correlación de Pearson se encuentra entre [-1, +1], la distancia de Pearson se encuentra en [0, 2]. La distancia de Pearson se ha utilizado en el análisis de conglomerados y la detección de datos para comunicaciones y almacenamiento con ganancia y compensación desconocidas.

Coeficiente de correlación circular

Para las variables X = { x 1 , ..., x n } e Y = { y 1 , ..., y n } que están definidas en el círculo unitario [0, 2 π ), es posible definir un círculo análogo del coeficiente de Pearson. Esto se hace transformando los puntos de datos en X e Y con una función sinusoidal tal que el coeficiente de correlación se da como:

donde y son los medios circulares de XY . Esta medida puede ser útil en campos como la meteorología, donde la dirección angular de los datos es importante.

Correlación parcial

Si una población o conjunto de datos se caracteriza por más de dos variables, un coeficiente de correlación parcial mide la fuerza de la dependencia entre un par de variables que no se tiene en cuenta por la forma en que ambas cambian en respuesta a variaciones en un subconjunto seleccionado. de las otras variables.

Descorrelación de n variables aleatorias

Siempre es posible eliminar las correlaciones entre todos los pares de un número arbitrario de variables aleatorias utilizando una transformación de datos, incluso si la relación entre las variables no es lineal. Cox & Hinkley ofrece una presentación de este resultado para distribuciones de población.

Existe un resultado correspondiente para reducir las correlaciones de la muestra a cero. Suponga que un vector de n variables aleatorias se observa m veces. Sea X una matriz donde es la j- ésima variable de observación i . Sea una matriz cuadrada de m por m con cada elemento 1. Entonces D son los datos transformados, por lo que cada variable aleatoria tiene media cero, y T son los datos transformados para que todas las variables tengan media cero y correlación cero con todas las demás variables: la correlación muestral La matriz de T será la matriz de identidad. Esto debe dividirse aún más por la desviación estándar para obtener la varianza de la unidad. Las variables transformadas no estarán correlacionadas, aunque no sean independientes .

donde un exponente de -+12 representa la raíz cuadrada de la matriz de la inversa de una matriz. La matriz de correlación de T será la matriz identidad. Si una nueva observación de datos x es un vector de fila de n elementos, entonces la misma transformada se puede aplicar ax para obtener los vectores transformados d y t :

Esta descorrelación está relacionada con el análisis de componentes principales para datos multivariados.

Implementaciones de software

Ver también

Notas al pie

Referencias

enlaces externos