Relación espuria - Spurious relationship

Mientras que un mediador es un factor en la cadena causal (1), un factor de confusión es un factor espurio que implica incorrectamente causalidad (2)

En estadística , una relación espuria o correlación espuria es una relación matemática en la que dos o más eventos o variables están asociados pero no relacionados causalmente , debido a la coincidencia o la presencia de un determinado tercer factor invisible (denominado "respuesta común variable "," factor de confusión "o" variable al acecho ").

Ejemplos de

Un ejemplo de una relación espuria se puede encontrar en la literatura de series de tiempo , donde una regresión espuria es una regresión que proporciona evidencia estadística engañosa de una relación lineal entre variables independientes no estacionarias . De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables. En particular, es probable que dos variables económicas nominales estén correlacionadas entre sí, incluso cuando ninguna tiene un efecto causal sobre la otra, porque cada una es igual a una variable real multiplicada por el nivel de precios , y la presencia común del nivel de precios en las dos. la serie de datos les imparte correlación. (Véase también correlación espuria de proporciones ).

Otro ejemplo de una relación espuria se puede ver al examinar las ventas de helados de una ciudad . Las ventas pueden ser más altas cuando la tasa de ahogamientos en las piscinas de la ciudad es más alta. Alegar que las ventas de helados provocan ahogamiento, o viceversa, implicaría una relación falsa entre los dos. En realidad, una ola de calor puede haber causado ambos. La ola de calor es un ejemplo de una variable oculta o invisible, también conocida como variable de confusión .

Otro ejemplo común es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de manantiales y el número de bebés humanos nacidos en ese momento. Por supuesto que no hubo conexión causal; estaban correlacionados entre sí solo porque estaban correlacionados con el clima nueve meses antes de las observaciones. Sin embargo, Höfer et al. (2004) mostró que la correlación es más fuerte que las variaciones climáticas, ya que pudo demostrar en la Alemania posterior a la reunificación que, si bien el número de partos clínicos no se relacionó con el aumento de la población de cigüeñas, los partos fuera del hospital se correlacionaron con la población de cigüeñas.

En casos raros, puede ocurrir una relación falsa entre dos variables completamente no relacionadas sin ninguna variable de confusión, como fue el caso entre el éxito del equipo de fútbol profesional Washington Redskins en un juego específico antes de cada elección presidencial y el éxito del partido político del presidente en ejercicio. en dicha elección. Durante 16 elecciones consecutivas entre 1940 y 2000, la Regla de los Pieles Rojas coincidió correctamente con si el partido político del presidente en ejercicio retendría o perdería la presidencia. La regla finalmente falló poco después de que Elias Sports Bureau descubrió la correlación en 2000; en 2004, 2012 y 2016, los resultados del juego de los Redskins y la elección no coincidieron. En una relación espuria similar que involucró a la Liga Nacional de Fútbol Americano , en la década de 1970, Leonard Koppett notó una correlación entre la dirección del mercado de valores y la conferencia ganadora del Super Bowl de ese año , el indicador del Super Bowl ; la relación se mantuvo durante la mayor parte del siglo XX antes de volver a un comportamiento más aleatorio en el XXI.

Prueba de hipótesis

A menudo, uno prueba una hipótesis nula de no correlación entre dos variables y elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos hubiera ocurrido en menos del (digamos) 5% de las muestras de datos si la hipótesis nula fuera verdadera. Mientras que una verdadera hipótesis nula será aceptada el 95% de las veces, el otro 5% de las veces que tenga un verdadero nulo de no correlación, una correlación cero será rechazada erróneamente, provocando la aceptación de una correlación que es falsa (un evento conocido como Tipo Me equivoco ). Aquí, la correlación espuria en la muestra resultó de la selección aleatoria de una muestra que no reflejaba las verdaderas propiedades de la población subyacente.

Detectar relaciones espúreas

El término "relación espuria" se usa comúnmente en estadística y, en particular, en técnicas de investigación experimental , las cuales intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables mediadoras , (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espúreas.

Experimentos

En los experimentos, las relaciones espurias a menudo se pueden identificar controlando otros factores, incluidos aquellos que se han identificado teóricamente como posibles factores de confusión. Por ejemplo, considere a un investigador que intenta determinar si un nuevo fármaco mata las bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, la bacteria muere. Pero para ayudar a descartar la presencia de una variable de confusión, otro cultivo se somete a condiciones que son lo más idénticas posible a las que enfrenta el cultivo mencionado en primer lugar, pero el segundo cultivo no está sujeto a la droga. Si hay un factor de confusión invisible en esas condiciones, este cultivo de control también morirá, de modo que no se puede extraer ninguna conclusión de la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si la cultura de control no muere, el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.

Análisis estadísticos no experimentales

Las disciplinas cuyos datos son en su mayoría no experimentales, como la economía , suelen emplear datos de observación para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría . El principal método estadístico en econometría es el análisis de regresión multivariable . Normalmente, una relación lineal como

se hipotetiza, en la cual es la variable dependiente (hipotetizada que es la variable causada), para j  = 1, ...,  k es la j- ésima variable independiente (hipotetizada que es una variable causal), y es el término de error (que contiene los efectos combinados de todas las demás variables causales, que deben no estar correlacionadas con las variables independientes incluidas). Si hay razones para creer que ninguno de los s es causado por y , entonces se obtienen estimaciones de los coeficientes . Si se rechaza la hipótesis nula , entonces no se puede rechazar la hipótesis alternativa de que y de manera equivalente que causa y . Por otro lado, si la hipótesis nula de que no se puede rechazar, a continuación, de forma equivalente la hipótesis de no efecto causal de sobre y no puede ser rechazada. Aquí la noción de causalidad es una de causalidad contributiva : si el valor verdadero , entonces un cambio en resultará en un cambio en y a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie en de tal manera que contrarreste exactamente su efecto; por tanto, un cambio en no es suficiente para cambiar  y . Asimismo, no es necesario un cambio en para cambiar y , porque un cambio en y podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causal incluida en el modelo).

El análisis de regresión controla otras variables relevantes incluyéndolas como regresores (variables explicativas). Esto ayuda a evitar una inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causante como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura incluyéndola directamente en la regresión, por lo que ese efecto no se considerará un efecto espurio de la variable potencialmente causante de interés. Además, el uso de regresión multivariante ayuda a evitar inferir erróneamente que un efecto indirecto de, digamos x 1 (por ejemplo, x 1x 2y ) es un efecto directo ( x 1y ).

Así como un experimentador debe tener cuidado de emplear un diseño experimental que controle todos los factores de confusión, el usuario de la regresión múltiple también debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores. Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error de forma predeterminada, y si el término de error resultante se correlaciona con uno (o más) de los regresores incluidos, entonces la regresión estimada puede ser sesgada o inconsistente ( ver sesgo de variable omitida ).

Además del análisis de regresión, los datos se pueden examinar para determinar si existe la causalidad de Granger . La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre  y .

Otras relaciones

Hay varias otras relaciones definidas en el análisis estadístico de la siguiente manera.

Ver también

Notas al pie

Referencias

enlaces externos