Autocorrelación - Autocorrelation

Arriba: gráfico de una serie de 100 números aleatorios que ocultan una función seno . Abajo: La función seno revelada en un correlograma producido por autocorrelación.
Comparación visual de convolución, correlación cruzada y autocorrelación . Para las operaciones que involucran la función f , y suponiendo que la altura de f es 1.0, el valor del resultado en 5 puntos diferentes se indica mediante el área sombreada debajo de cada punto. Además, la simetría de f es la razón y son idénticas en este ejemplo.

La autocorrelación , a veces conocida como correlación en serie en el caso de tiempo discreto , es la correlación de una señal con una copia retrasada de sí misma en función del retraso. De manera informal, es la similitud entre las observaciones en función del desfase temporal entre ellas. El análisis de autocorrelación es una herramienta matemática para encontrar patrones repetidos, como la presencia de una señal periódica oscurecida por ruido , o identificar la frecuencia fundamental faltante en una señal implicada por sus frecuencias armónicas . A menudo se utiliza en el procesamiento de señales para analizar funciones o series de valores, como señales en el dominio del tiempo .

Los diferentes campos de estudio definen la autocorrelación de manera diferente, y no todas estas definiciones son equivalentes. En algunos campos, el término se usa indistintamente con autocovarianza .

Los procesos de raíz unitaria, los procesos estacionarios de tendencia , los procesos autorregresivos y los procesos de media móvil son formas específicas de procesos con autocorrelación.

Autocorrelación de procesos estocásticos

En estadística , la autocorrelación de un proceso aleatorio real o complejo es la correlación de Pearson entre valores del proceso en diferentes momentos, en función de los dos tiempos o del desfase temporal. Sea un proceso aleatorio y cualquier punto en el tiempo ( puede ser un número entero para un proceso de tiempo discreto o un número real para un proceso de tiempo continuo ). Entonces es el valor (o realización ) producido por una ejecución dada del proceso en el momento . Suponga que el proceso tiene media y varianza en el tiempo , para cada uno . Entonces la definición de la función de autocorrelación entre tiempos y es

 

 

 

 

( Ecuación 1 )

donde es el operador de valor esperado y la barra representa una conjugación compleja . Tenga en cuenta que la expectativa puede no estar bien definida .

Restar la media antes de la multiplicación produce la función de autocovarianza entre tiempos y :

 

 

 

 

( Ecuación 2 )

Tenga en cuenta que esta expresión no está bien definida para todas las series de tiempo o procesos, porque la media puede no existir, o la varianza puede ser cero (para un proceso constante) o infinita (para procesos con distribución que carecen de momentos de buen comportamiento, como ciertos tipos de ley de potencia ).

Definición de proceso estocástico estacionario de sentido amplio

Si es un proceso estacionario de sentido amplio, entonces la media y la varianza son independientes del tiempo, y además la función de autocovarianza depende solo del retraso entre y : la autocovarianza depende solo de la distancia de tiempo entre el par de valores, pero no de su posición en el tiempo. Esto implica además que la autocovarianza y la autocorrelación se pueden expresar en función del desfase temporal, y que esto sería una función uniforme del desfase . Esto da las formas más familiares para la función de autocorrelación.

 

 

 

 

( Ecuación 3 )

y la función de auto-covarianza :

 

 

 

 

( Ecuación 4 )

Normalización

Es una práctica común en algunas disciplinas (por ejemplo, estadísticas y análisis de series de tiempo ) normalizar la función de autocovarianza para obtener un coeficiente de correlación de Pearson dependiente del tiempo . Sin embargo, en otras disciplinas (por ejemplo, ingeniería), la normalización generalmente se descarta y los términos "autocorrelación" y "autocovarianza" se usan indistintamente.

La definición del coeficiente de autocorrelación de un proceso estocástico es

Si la función está bien definido, su valor debe estar en el intervalo , con 1 que indica una correlación perfecta y -1 indica perfecto anti-correlación .

Para un proceso de estacionariedad de sentido débil, estacionariedad de sentido amplio (WSS), la definición es

dónde

La normalización es importante tanto porque la interpretación de la autocorrelación como una correlación proporciona una medida libre de escala de la fuerza de la dependencia estadística , como porque la normalización tiene un efecto sobre las propiedades estadísticas de las autocorrelaciones estimadas.

Propiedades

Propiedad de simetría

El hecho de que la función de autocorrelación sea ​​una función par puede expresarse como

respectivamente para un proceso WSS:

Máximo a cero

Para un proceso WSS:

Fíjate que siempre es real.

Desigualdad de Cauchy-Schwarz

La desigualdad de Cauchy-Schwarz , desigualdad para procesos estocásticos:

Autocorrelación del ruido blanco

La autocorrelación de una señal de ruido blanco de tiempo continuo tendrá un pico fuerte (representado por una función delta de Dirac ) en y será exactamente 0 para todas las demás .

Teorema de Wiener-Khinchin

El teorema de Wiener-Khinchin relaciona la función de autocorrelación con la densidad espectral de potencia a través de la transformada de Fourier :

Para las funciones con valores reales, la función de autocorrelación simétrica tiene una transformada simétrica real, por lo que el teorema de Wiener-Khinchin se puede reexpresar solo en términos de cosenos reales:

Autocorrelación de vectores aleatorios

La matriz de autocorrelación (potencialmente dependiente del tiempo) (también llamada segundo momento) de un vector aleatorio (potencialmente dependiente del tiempo) es una matriz que contiene como elementos las autocorrelaciones de todos los pares de elementos del vector aleatorio . La matriz de autocorrelación se utiliza en varios algoritmos de procesamiento de señales digitales.

Para un vector aleatorio que contiene elementos aleatorios cuyo valor esperado y varianza existen, la matriz de autocorrelación se define por

 

 

 

 

( Ecuación 1 )

donde denota transposición y tiene dimensiones .

Componente escrito:

Si es un vector aleatorio complejo , la matriz de autocorrelación se define en cambio por

Aquí denota transposición hermitiana .

Por ejemplo, si es un vector aleatorio, entonces es una matriz cuya -ésima entrada es .

Propiedades de la matriz de autocorrelación

  • La matriz de autocorrelación es una matriz hermitiana para vectores aleatorios complejos y una matriz simétrica para vectores aleatorios reales.
  • La matriz de autocorrelación es una matriz semidefinida positiva , es decir, para un vector aleatorio real, y respectivamente en el caso de un vector aleatorio complejo.
  • Todos los valores propios de la matriz de autocorrelación son reales y no negativos.
  • La matriz de autocovarianza está relacionada con la matriz de autocorrelación de la siguiente manera:

    Respectivamente para vectores aleatorios complejos:

Autocorrelación de señales deterministas

En el procesamiento de señales , la definición anterior se usa a menudo sin la normalización, es decir, sin restar la media y dividir por la varianza. Cuando la función de autocorrelación se normaliza mediante la media y la varianza, a veces se la denomina coeficiente de autocorrelación o función de autocovarianza.

Autocorrelación de la señal de tiempo continuo

Dada una señal , la autocorrelación continua se define con mayor frecuencia como la integral de correlación cruzada continua de consigo misma, con retraso .

 

 

 

 

( Ecuación 6 )

donde representa el complejo conjugado de . Tenga en cuenta que el parámetro de la integral es una variable ficticia y solo es necesario para calcular la integral. No tiene un significado específico.

Autocorrelación de señal de tiempo discreto

La autocorrelación discreta en el retraso para una señal de tiempo discreto es

 

 

 

 

( Ecuación 7 )

Las definiciones anteriores funcionan para señales que son integrables al cuadrado o sumables al cuadrado, es decir, de energía finita. Las señales que "duran para siempre" se tratan en cambio como procesos aleatorios, en cuyo caso se necesitan diferentes definiciones, basadas en los valores esperados. Para procesos aleatorios estacionarios de sentido amplio , las autocorrelaciones se definen como

Para procesos que no son estacionarios , estos también serán funciones de , o .

Para procesos que también son ergódicos , la expectativa puede ser reemplazada por el límite de un tiempo promedio. La autocorrelación de un proceso ergódico a veces se define como o se equipara a

Estas definiciones tienen la ventaja de que proporcionan resultados sencillos y bien definidos de un solo parámetro para funciones periódicas, incluso cuando esas funciones no son el resultado de procesos ergódicos estacionarios.

Alternativamente, las señales que duran para siempre pueden tratarse mediante un análisis de función de autocorrelación de tiempo corto, utilizando integrales de tiempo finito. (Consulte la transformada de Fourier de tiempo corto para conocer un proceso relacionado).

Definición de señales periódicas

Si es una función periódica continua de período , la integración de a se reemplaza por la integración sobre cualquier intervalo de longitud :

que es equivalente a

Propiedades

A continuación, describiremos las propiedades de las autocorrelaciones unidimensionales únicamente, ya que la mayoría de las propiedades se transfieren fácilmente del caso unidimensional a los casos multidimensionales. Estas propiedades son válidas para procesos estacionarios de sentido amplio .

  • Una propiedad fundamental de la autocorrelación es la simetría , que es fácil de demostrar a partir de la definición. En el caso continuo,
    • la autocorrelación es una función par cuando es una función real, y
    • la autocorrelación es una función hermitiana cuando es una función compleja .
  • La función de autocorrelación continua alcanza su pico en el origen, donde se toma un valor real, es decir, para cualquier retraso , . Esto es una consecuencia de la desigualdad de reordenamiento . El mismo resultado es válido en el caso discreto.
  • La autocorrelación de una función periódica es, en sí misma, periódica con el mismo período.
  • La autocorrelación de la suma de dos funciones completamente no correlacionadas (la correlación cruzada es cero para todas ) es la suma de las autocorrelaciones de cada función por separado.
  • Dado que la autocorrelación es un tipo específico de correlación cruzada , mantiene todas las propiedades de la correlación cruzada.
  • Al usar el símbolo para representar la convolución y es una función que manipula la función y se define como , la definición de puede escribirse como:

Autocorrelación multidimensional

La autocorrelación multidimensional se define de manera similar. Por ejemplo, en tres dimensiones, la autocorrelación de una señal discreta sumable al cuadrado sería

Cuando los valores medios se restan de las señales antes de calcular una función de autocorrelación, la función resultante suele denominarse función de autocovarianza.

Computación eficiente

Para los datos expresados ​​como una secuencia discreta , con frecuencia es necesario calcular la autocorrelación con alta eficiencia computacional . Se puede utilizar un método de fuerza bruta basado en la definición de procesamiento de la señal cuando el tamaño de la señal es pequeño. Por ejemplo, para calcular la autocorrelación de la secuencia de señal real (es decir , y para todos los demás valores de i ) a mano, primero reconocemos que la definición que se acaba de dar es la misma que la multiplicación "habitual", pero con cambios a la derecha, donde cada adición vertical da la autocorrelación para valores de retardo particulares:

Por lo tanto, la secuencia de autocorrelación requerida es , donde y la autocorrelación para otros valores de retardo es cero. En este cálculo no realizamos la operación de transferencia durante la suma como es habitual en la multiplicación normal. Tenga en cuenta que podemos reducir a la mitad el número de operaciones necesarias aprovechando la simetría inherente de la autocorrelación. Si la señal resulta ser periódica, es decir, entonces obtenemos una autocorrelación circular (similar a la convolución circular ) donde las colas izquierda y derecha de la secuencia de autocorrelación anterior se superpondrán y darán cuál tiene el mismo período que la secuencia de la señal El procedimiento puede considerarse como una aplicación de la propiedad de convolución de la transformada Z de una señal discreta.

Si bien el algoritmo de fuerza bruta es de orden n 2 , existen varios algoritmos eficientes que pueden calcular la autocorrelación en orden n log ( n ) . Por ejemplo, el teorema de Wiener-Khinchin permite calcular la autocorrelación a partir de los datos brutos X ( t ) con dos transformadas rápidas de Fourier (FFT):

donde IFFT denota la transformada rápida de Fourier inversa . El asterisco denota conjugado complejo .

Alternativamente, se puede realizar una correlación de τ múltiple utilizando el cálculo de fuerza bruta para valores de τ bajos y luego agrupando progresivamente los datos de X ( t ) con una densidad logarítmica para calcular valores más altos, lo que da como resultado la misma eficiencia de n log ( n ) , pero con menores requisitos de memoria.

Estimacion

Para un proceso discreto con media y varianza conocidas para el cual observamos observaciones , se puede obtener una estimación de la autocorrelación como

para cualquier entero positivo . Cuando se conocen la media y la varianza verdaderas , esta estimación es insesgada . Si no se conocen la media real y la varianza del proceso, existen varias posibilidades:

  • Si y se reemplazan por las fórmulas estándar para la media de la muestra y la varianza de la muestra, entonces esta es una estimación sesgada .
  • Una estimación basada en periodograma reemplaza en la fórmula anterior con . Esta estimación siempre está sesgada; sin embargo, suele tener un error cuadrático medio más pequeño.
  • Otras posibilidades se derivan del tratamiento de las dos porciones de datos y por separado y del cálculo de medias muestrales separadas y / o varianzas muestrales para su uso en la definición de la estimación.

La ventaja de las estimaciones del último tipo es que el conjunto de autocorrelaciones estimadas, en función de , forman entonces una función que es una autocorrelación válida en el sentido de que es posible definir un proceso teórico que tenga exactamente esa autocorrelación. Otras estimaciones pueden sufrir el problema de que, si se utilizan para calcular la varianza de una combinación lineal de las , la varianza calculada puede resultar negativa.

Análisis de regresión

En el análisis de regresión que utiliza datos de series de tiempo , la autocorrelación en una variable de interés se modela típicamente con un modelo autorregresivo (AR), un modelo de promedio móvil (MA), su combinación como un modelo de promedio móvil autorregresivo (ARMA) o un modelo . extensión de este último denominado modelo de media móvil integrado autorregresivo (ARIMA). Con múltiples series de datos interrelacionados, se utiliza la autorregresión vectorial (VAR) o sus extensiones.

En mínimos cuadrados ordinarios (MCO), la idoneidad de la especificación de un modelo se puede verificar en parte estableciendo si existe autocorrelación de los residuos de regresión . La autocorrelación problemática de los errores, que en sí mismos no se observan, generalmente se puede detectar porque produce autocorrelación en los residuos observables. (Los errores también se conocen como "términos de error" en econometría .) La autocorrelación de los errores viola el supuesto de mínimos cuadrados ordinarios de que los términos de error no están correlacionados, lo que significa que el teorema de Gauss Markov no se aplica y que los estimadores MCO ya no son los mejores. Estimadores lineales insesgados ( AZUL ). Si bien no sesga las estimaciones del coeficiente de MCO, los errores estándar tienden a subestimarse (y las puntuaciones t sobreestimadas) cuando las autocorrelaciones de los errores en rezagos bajos son positivas.

La prueba tradicional para la presencia de autocorrelación de primer orden es el estadístico de Durbin-Watson o, si las variables explicativas incluyen una variable dependiente rezagada, el estadístico h de Durbin . Sin embargo, el Durbin-Watson se puede mapear linealmente a la correlación de Pearson entre los valores y sus rezagos. Una prueba más flexible, que cubre la autocorrelación de órdenes superiores y aplicable tanto si los regresores incluyen rezagos de la variable dependiente como si no, es la prueba de Breusch-Godfrey . Esto implica una regresión auxiliar, en la que los residuos obtenidos de la estimación del modelo de interés se retroceden en (a) los regresores originales y (b) k rezagos de los residuos, donde 'k' es el orden de la prueba. La versión más simple del estadístico de prueba de esta regresión auxiliar es TR 2 , donde T es el tamaño de la muestra y R 2 es el coeficiente de determinación . Bajo la hipótesis nula de no autocorrelación, este estadístico se distribuye asintóticamente como con k grados de libertad.

Las respuestas a la autocorrelación distinta de cero incluyen mínimos cuadrados generalizados y el estimador Newey-West HAC (heterocedasticidad y autocorrelación consistente).

En la estimación de un modelo de promedio móvil (MA), la función de autocorrelación se usa para determinar el número apropiado de términos de error rezagados que se incluirán. Esto se basa en el hecho de que para un proceso de MA de orden q , tenemos , para y para .

Aplicaciones

  • El análisis de autocorrelación se utiliza mucho en la espectroscopia de correlación de fluorescencia para proporcionar información cuantitativa sobre la difusión a nivel molecular y las reacciones químicas.
  • Otra aplicación de la autocorrelación es la medición de espectros ópticos y la medición de pulsos de luz de muy corta duración producidos por láseres , ambos utilizando autocorrelacionadores ópticos .
  • La autocorrelación se utiliza para analizar datos de dispersión de luz dinámica , lo que permite en particular la determinación de las distribuciones de tamaño de partículas de partículas de tamaño nanométrico o micelas suspendidas en un fluido. Un láser que incide en la mezcla produce un patrón de motas que resulta del movimiento de las partículas. La autocorrelación de la señal se puede analizar en términos de la difusión de las partículas. A partir de esto, conociendo la viscosidad del fluido, se pueden calcular los tamaños de las partículas.
  • Se utiliza en el sistema GPS para corregir el retraso de propagación , o cambio de tiempo, entre el punto de tiempo en la transmisión de la señal portadora en los satélites y el punto de tiempo en el receptor en tierra. Esto lo hace el receptor generando una señal de réplica del código C / A (curso / adquisición) de 1.023 bits y generando líneas de chips de código [-1,1] en paquetes de diez a la vez, o 10.230 chips (1.023 × 10), cambiando ligeramente a medida que avanza para adaptarse al cambio Doppler en la señal del satélite entrante, hasta que la señal de réplica del receptor y los códigos de la señal del satélite coincidan.
  • La intensidad de dispersión de rayos X de ángulo pequeño de un sistema nanoestructurado es la transformada de Fourier de la función de autocorrelación espacial de la densidad de electrones.
  • En la ciencia de superficies y la microscopía de sonda de barrido , la autocorrelación se utiliza para establecer un vínculo entre la morfología de la superficie y las características funcionales.
  • En óptica, las autocorrelaciones normalizadas y las correlaciones cruzadas dan el grado de coherencia de un campo electromagnético.
  • En el procesamiento de señales , la autocorrelación puede proporcionar información sobre eventos repetidos como ritmos musicales (por ejemplo, para determinar el tempo ) o frecuencias de púlsar , aunque no puede decir la posición en el tiempo del ritmo. También se puede utilizar para estimar el tono de un tono musical .
  • En la grabación de música , la autocorrelación se utiliza como algoritmo de detección de tono antes del procesamiento vocal, como efecto de distorsión o para eliminar errores e imprecisiones no deseados.
  • Los difraccionistas de rayos X utilizan la autocorrelación en el espacio en lugar de en el tiempo, a través de la función de Patterson , para ayudar a recuperar la "información de fase de Fourier" en las posiciones de los átomos que no están disponibles a través de la difracción solamente.
  • En estadística, la autocorrelación espacial entre ubicaciones de muestra también ayuda a estimar las incertidumbres de los valores medios cuando se toman muestras de una población heterogénea.
  • El algoritmo SEQUEST para analizar espectros de masas utiliza la autocorrelación junto con la correlación cruzada para puntuar la similitud de un espectro observado con un espectro idealizado que representa un péptido .
  • En astrofísica , la autocorrelación se utiliza para estudiar y caracterizar la distribución espacial de las galaxias en el universo y en observaciones de longitudes de onda múltiples de binarias de rayos X de baja masa .
  • En los datos de panel , la autocorrelación espacial se refiere a la correlación de una variable consigo misma a través del espacio.
  • En el análisis de los datos de Monte Carlo de la cadena de Markov , se debe tener en cuenta la autocorrelación para la determinación correcta del error.
  • En geociencias (específicamente en geofísica) se puede utilizar para calcular un atributo sísmico de autocorrelación, a partir de un levantamiento sísmico 3D del subsuelo.
  • En la ecografía médica , la autocorrelación se utiliza para visualizar el flujo sanguíneo.
  • En la elección de una cartera intertemporal , la presencia o ausencia de autocorrelación en la tasa de rendimiento de un activo puede afectar la parte óptima de la cartera que se debe mantener en ese activo.

Dependencia serial

La dependencia en serie está estrechamente relacionada con la noción de autocorrelación, pero representa un concepto distinto (ver Correlación y dependencia ). En particular, es posible tener dependencia serial pero no correlación (lineal). En algunos campos, sin embargo, los dos términos se utilizan como sinónimos.

Una serie de tiempo de una variable aleatoria tiene dependencia serial si el valor en algún momento de la serie depende estadísticamente del valor en otro momento . Una serie es independiente en serie si no hay dependencia entre ningún par.

Si una serie de tiempo es estacionaria , entonces la dependencia estadística entre el par implicaría que existe una dependencia estadística entre todos los pares de valores en el mismo rezago .

Ver también

Referencias

Otras lecturas