Razón de probabilidades - Odds ratio

Una razón de probabilidades ( OR ) es una estadística que cuantifica la fuerza de la asociación entre dos eventos, A y B. La razón de probabilidades se define como la razón de las probabilidades de A en presencia de B y las probabilidades de A en ausencia de B, o de manera equivalente (debido a la simetría ), la razón de las probabilidades de B en presencia de A y las probabilidades de B en ausencia de A. Dos eventos son independientes si y solo si el OR es igual a 1, es decir, el Las probabilidades de un evento son las mismas en presencia o ausencia del otro evento. Si el OR es mayor que 1, entonces A y B están asociados (correlacionados) en el sentido de que, en comparación con la ausencia de B, la presencia de B aumenta las probabilidades de A, y simétricamente la presencia de A aumenta las probabilidades de B Por el contrario, si el OR es menor que 1, entonces A y B están correlacionados negativamente y la presencia de un evento reduce las probabilidades del otro evento.

Tenga en cuenta que la razón de posibilidades es simétrica en los dos eventos y no hay una dirección causal implícita (la correlación no implica causalidad ): un OR mayor que 1 no establece que B causa A o que A causa B.

Dos estadísticas similares que se utilizan a menudo para cuantificar las asociaciones son el índice de riesgo (RR) y la reducción del riesgo absoluto (ARR). A menudo, el parámetro de mayor interés es en realidad el RR, que es el cociente de las probabilidades análogas a las probabilidades utilizadas en el OR. Sin embargo, los datos disponibles con frecuencia no permiten el cálculo del RR o el ARR, pero sí permiten el cálculo del OR, como en los estudios de casos y controles , como se explica a continuación. Por otro lado, si una de las propiedades (A o B) es suficientemente rara (en epidemiología esto se llama el supuesto de enfermedad rara ), entonces el OR es aproximadamente igual al RR correspondiente.

El quirófano juega un papel importante en el modelo logístico .

Definición y propiedades básicas

Un ejemplo motivador, en el contexto del supuesto de enfermedad rara

Suponga que una fuga de radiación en una aldea de 1000 personas aumenta la incidencia de una enfermedad rara. El número total de personas expuestas a la radiación fue de las que desarrollaron la enfermedad y se mantuvieron saludables. El número total de personas no expuestas fue de las que desarrollaron la enfermedad y se mantuvieron saludables. Podemos organizar esto en una tabla :

El riesgo de desarrollar la enfermedad dada la exposición es y de desarrollar la enfermedad si la no exposición es . Una forma obvia de comparar los riesgos es usar la razón de los dos, el riesgo relativo (otra forma es mirar la diferencia absoluta,

La razón de posibilidades es diferente. La probabilidad de contraer la enfermedad si se expone es y la probabilidad si no se expone es La razón de probabilidad es la razón de los dos,

.

Como puede ver, en un caso de enfermedad rara como este, el riesgo relativo y la razón de probabilidades son casi los mismos. Por definición, enfermedad rara implica que y . Por lo tanto, los denominadores del riesgo relativo y la razón de probabilidades son casi los mismos ( y .

El riesgo relativo es más fácil de entender que la razón de probabilidades, entonces, ¿por qué usar la razón de probabilidades? Una razón es que, por lo general, no tenemos datos sobre toda la población y debemos utilizar un muestreo aleatorio . En nuestro ejemplo, suponga que es muy costoso entrevistar a los aldeanos y averiguar si estuvieron expuestos a la radiación; no tenemos idea de la prevalencia de la exposición a la radiación, los valores de o . Podríamos tomar una muestra aleatoria de cincuenta aldeanos, pero muy posiblemente una muestra tan aleatoria no incluiría a nadie con la enfermedad, ya que solo el 2.6% de la población está enferma. En su lugar, podríamos utilizar un estudio de casos y controles en el que entrevistamos a los 26 aldeanos enfermos y una muestra aleatoria de 26 que no tienen la enfermedad. Los resultados pueden resultar de la siguiente manera ("podría", porque esta es una muestra aleatoria):

Las probabilidades en esta muestra de contraer la enfermedad dado que alguien está expuesto es de 20/10 y las probabilidades de que alguien no esté expuesto son de 6/16. La razón de posibilidades es así . El riesgo relativo, sin embargo, no se puede calcular, ya que es la relación entre los riesgos de contraer la enfermedad y que necesitaría y de entender los cabo. Debido a que seleccionamos para personas con la enfermedad, la mitad de las personas de nuestra muestra tienen la enfermedad y sabemos que es más que la prevalencia en toda la población.

Es estándar en la literatura médica calcular la razón de probabilidades y luego usar el supuesto de enfermedad rara (que generalmente es razonable) para afirmar que el riesgo relativo es aproximadamente igual a él. Esto no solo permite el uso de estudios de casos y controles, sino que facilita el control de variables de confusión como el peso o la edad mediante el análisis de regresión y tiene las propiedades deseables que se analizan en otras secciones de este artículo de invariancia e insensibilidad al tipo de muestreo .

Definición en términos de probabilidades grupales

La razón de probabilidades es la relación entre las probabilidades de que ocurra un evento en un grupo y las probabilidades de que ocurra en otro grupo. El término también se utiliza para referirse a estimaciones basadas en muestras de esta relación. Estos grupos pueden ser hombres y mujeres, un grupo experimental y un grupo de control , o cualquier otra clasificación dicotómica . Si las probabilidades del evento en cada uno de los grupos son p 1 (primer grupo) yp 2 (segundo grupo), entonces la razón de posibilidades es:

donde q x  = 1 -  p x . Una razón de probabilidades de 1 indica que la afección o el evento en estudio es igualmente probable que ocurra en ambos grupos. Una razón de posibilidades superior a 1 indica que es más probable que la afección o el evento ocurra en el primer grupo. Y una razón de probabilidades menor a 1 indica que es menos probable que la afección o el evento ocurra en el primer grupo. La razón de posibilidades no debe ser negativa si está definida. No está definido si p 2 q 1 es igual a cero, es decir, si p 2 es igual a cero o q 1 es igual a cero.

Definición en términos de probabilidades conjuntas y condicionales

La razón de posibilidades también se puede definir en términos de la distribución de probabilidad conjunta de dos variables aleatorias binarias . La distribución conjunta de las variables aleatorias binarias X e Y se puede escribir

donde p 11 , p 10 , p 01 y p 00 son "probabilidades de celda" no negativas que suman uno. Las probabilidades de Y dentro de las dos subpoblaciones definidas por X = 1 y X = 0 se definen en términos de las probabilidades condicionales dadas X , es decir , P ( Y | X ) :

Por tanto, la razón de posibilidades es

La expresión simple de la derecha, arriba, es fácil de recordar como el producto de las probabilidades de las "celdas concordantes" ( X  =  Y ) dividido por el producto de las probabilidades de las "celdas discordantes" ( X  ≠  Y ) . Sin embargo, tenga en cuenta que en algunas aplicaciones el etiquetado de categorías como cero y uno es arbitrario, por lo que no hay nada especial en los valores concordantes versus discordantes en estas aplicaciones.

Simetría

Si hubiéramos calculado la razón de posibilidades en función de las probabilidades condicionales dadas Y ,

hubiéramos obtenido el mismo resultado

Otras medidas del tamaño del efecto para datos binarios, como el riesgo relativo , no tienen esta propiedad de simetría.

Relación con la independencia estadística

Si X y Y son independientes, sus probabilidades conjuntas se pueden expresar en términos de su probabilidades marginales p x  =  P ( X  = 1) y p y  =  P ( Y  = 1) , como sigue

En este caso, la razón de probabilidades es igual a uno y, a la inversa, la razón de probabilidades solo puede ser igual a uno si las probabilidades conjuntas se pueden factorizar de esta manera. Por tanto, la razón de posibilidades es igual a uno si y solo si X e Y son independientes .

Recuperar las probabilidades de la celda a partir de la razón de posibilidades y las probabilidades marginales

La razón de posibilidades es una función de las probabilidades de las celdas y, a la inversa, las probabilidades de las celdas se pueden recuperar teniendo en cuenta la razón de posibilidades y las probabilidades marginales P ( X  = 1) =  p 11  +  p 10 y P ( Y  = 1) =  p 11  +  p 01 . Si la razón de posibilidades R difiere de 1, entonces

donde p 1 •  =  p 11  +  p 10 ,   p • 1  =  p 11  +  p 01 , y

En el caso donde R  = 1 , tenemos independencia, entonces p 11  =  p 1 • p • 1 .

Una vez que tenemos p 11 , las otras tres probabilidades de celda se pueden recuperar fácilmente de las probabilidades marginales.

Ejemplo

Un gráfico que muestra cómo el log odds ratio de se refiere a las probabilidades subyacentes de los resultados X que ocurre en dos grupos, denota A y B . El log odds relación mostrada aquí se basa en las probabilidades para el evento que ocurre en el grupo B con respecto a las probabilidades de que ocurra el evento en el grupo A . Por lo tanto, cuando la probabilidad de que X ocurra en el grupo B es mayor que la probabilidad de que X ocurra en el grupo A , la razón de probabilidades es mayor que 1 y la razón de probabilidades logarítmica es mayor que 0.

Supongamos que en una muestra de 100 hombres, 90 bebieron vino en la semana anterior (por lo que 10 no lo hicieron), mientras que en una muestra de 80 mujeres solo 20 bebieron vino en el mismo período (por lo que 60 no lo hicieron). Esto forma la tabla de contingencia:

La razón de posibilidades (OR) se puede calcular directamente a partir de esta tabla como:

Alternativamente, las probabilidades de que un hombre beba vino son de 90 a 10, o 9: 1, mientras que las probabilidades de que una mujer beba vino son solo de 20 a 60, o 1: 3 = 0.33. La razón de probabilidades es, por tanto, 9 / 0,33, o 27, lo que muestra que los hombres son mucho más propensos a beber vino que las mujeres. El cálculo detallado es:

Este ejemplo también muestra cómo las razones de probabilidades son a veces sensibles al indicar posiciones relativas: en esta muestra, los hombres tienen (90/100) / (20/80) = 3.6 veces más probabilidades de haber bebido vino que las mujeres, pero tienen 27 veces más probabilidades. El logaritmo de la razón de posibilidades, la diferencia de los logits de las probabilidades , atenúa este efecto y también hace que la medida sea simétrica con respecto al orden de los grupos. Por ejemplo, usando logaritmos naturales , una razón de probabilidades de 27/1 corresponde a 3.296 y una razón de probabilidades de 1/27 corresponde a −3.296.

Inferencia estadística

Un gráfico que muestra el valor mínimo del logaritmo de la muestra estadístico de razón de probabilidades que debe observarse para que se considere significativo al nivel de 0.05, para un tamaño de muestra dado. Las tres líneas corresponden a diferentes configuraciones de las probabilidades marginales en la tabla de contingencia de 2 × 2 (las probabilidades marginales de la fila y la columna son iguales en este gráfico).

Se han desarrollado varios enfoques para la inferencia estadística para las razones de probabilidades.

Un enfoque de la inferencia utiliza grandes aproximaciones muestrales de la distribución muestral del logaritmo de la razón de probabilidades (el logaritmo natural de la razón de probabilidades). Si usamos la notación de probabilidad conjunta definida anteriormente, la razón de probabilidades logarítmica de la población es

Si observamos datos en forma de tabla de contingencia

entonces las probabilidades en la distribución conjunta se pueden estimar como

dónde ︿pagij  =  n ij  /  n , siendo n  =  n 11  +  n 10  +  n 01  +  n 00 la suma de los cuatro recuentos de celdas. El logaritmo de la razón de posibilidades de la muestra es

.

La distribución del logaritmo de la razón de posibilidades es aproximadamente normal con:

El error estándar para el logaritmo de la razón de posibilidades es aproximadamente

.

Esta es una aproximación asintótica y no dará un resultado significativo si alguno de los recuentos de células es muy pequeño. Si L es el logaritmo de la razón de probabilidades de la muestra, un intervalo de confianza aproximado del 95% para el logaritmo de la razón de probabilidades de la población es L  ± 1.96SE . Esto se puede asignar a exp ( L  - 1.96SE), exp ( L  + 1.96SE) para obtener un intervalo de confianza del 95% para la razón de probabilidades. Si deseamos probar la hipótesis de que la razón de posibilidades de la población es igual a uno, el valor p bilateral es 2 P ( Z  <- | L | / SE) , donde P denota una probabilidad y Z denota una variable aleatoria normal estándar. .

Un enfoque alternativo a la inferencia de odds ratio miradas en la distribución de los datos de forma condicional en las frecuencias marginales de X y Y . Una ventaja de este enfoque es que la distribución muestral de la razón de posibilidades se puede expresar con exactitud.

Papel en la regresión logística

La regresión logística es una forma de generalizar la razón de posibilidades más allá de dos variables binarias. Supongamos que tenemos una variable de respuesta binaria Y y una variable predictora binaria X , y además tenemos otras variables predictoras Z 1 , ..., Z p que pueden o no ser binarias. Si utilizamos la regresión logística múltiple para hacer una regresión de Y en X , Z 1 , ..., Z p , entonces el coeficiente estimado para X está relacionado con una razón de probabilidades condicional. Específicamente, a nivel de población

también lo es una estimación de esta razón de posibilidades condicional. La interpretación de es como una estimación de la razón de posibilidades entre Y y X cuando los valores de Z 1 , ..., Z p se mantienen fijos.

Insensibilidad al tipo de muestreo

Si los datos forman una "muestra de población", entonces las probabilidades de celda pagij se interpretan como las frecuencias de cada uno de los cuatro grupos de la población según se definen por susvaloresXeY. En muchos entornos no es práctico obtener una muestra de población, por lo que se utiliza una muestra seleccionada. Por ejemplo, podemos optar por muestrearunidadescon X  = 1con una probabilidadfdada, independientemente de su frecuencia en la población (lo que requeriría unidades de muestreo con X  = 0con probabilidad1 -  f ). En esta situación, nuestros datos seguirían las siguientes probabilidades conjuntas:

La razón de posibilidades p 11 p 00  /  p 01 p 10 para esta distribución no depende del valor de f . Esto muestra que la razón de probabilidades (y, en consecuencia, la razón logarítmica de las probabilidades) es invariante al muestreo no aleatorio basado en una de las variables que se están estudiando. Sin embargo, tenga en cuenta que el error estándar del logaritmo de la razón de posibilidades depende del valor de f .

Este hecho se explota en dos situaciones importantes:

  • Suponga que es inconveniente o poco práctico obtener una muestra de población, pero es práctico obtener una muestra de conveniencia de unidades con diferentes valores de X , de manera que dentro de las submuestras de X  = 0 y X  = 1 los valores de Y son representativos de la población (es decir, siguen las probabilidades condicionales correctas).
  • Suponga que la distribución marginal de una variable, digamos X , está muy sesgada. Por ejemplo, si estamos estudiando la relación entre el alto consumo de alcohol y el cáncer de páncreas en la población general, la incidencia de cáncer de páncreas sería muy baja, por lo que se requeriría una muestra de población muy grande para obtener un número modesto de casos de cáncer de páncreas. Sin embargo, podríamos usar datos de hospitales para contactar a la mayoría o a todos sus pacientes con cáncer de páncreas, y luego muestrear al azar un número igual de sujetos sin cáncer de páncreas (esto se llama un "estudio de casos y controles").

En ambos entornos, la razón de posibilidades se puede calcular a partir de la muestra seleccionada, sin sesgar los resultados en relación con lo que se habría obtenido para una muestra de población.

Uso en investigación cuantitativa

Debido al uso generalizado de la regresión logística , la razón de probabilidades se usa ampliamente en muchos campos de la investigación médica y de las ciencias sociales. La razón de posibilidades se usa comúnmente en la investigación de encuestas , en epidemiología y para expresar los resultados de algunos ensayos clínicos , como en los estudios de casos y controles . A menudo se abrevia "OR" en los informes. Cuando se combinan datos de varias encuestas, a menudo se expresarán como "OR combinado".

Relación con el riesgo relativo

Razón de riesgo frente a razón de probabilidades

Como se explica en la sección "Ejemplo motivador" , el riesgo relativo suele ser mejor que la razón de probabilidades para comprender la relación entre el riesgo y alguna variable como la radiación o un nuevo fármaco. Esa sección también explica que si se cumple el supuesto de enfermedad rara , la razón de probabilidades es una buena aproximación al riesgo relativo y que tiene algunas ventajas sobre el riesgo relativo. Cuando el supuesto de enfermedad rara no se cumple, la razón de probabilidades puede sobrestimar el riesgo relativo.

Si el riesgo absoluto en el grupo no expuesto está disponible, la conversión entre los dos se calcula mediante:

donde R C es el riesgo absoluto del grupo no expuesto.

Si no se aplica el supuesto de enfermedad rara, la razón de probabilidades puede ser muy diferente del riesgo relativo y puede ser engañosa.

Considere la tasa de mortalidad de pasajeros hombres y mujeres cuando el Titanic se hundió. De 462 mujeres, 154 murieron y 308 sobrevivieron. De 851 hombres, 709 murieron y 142 sobrevivieron. Claramente, un hombre en el Titanic tenía más probabilidades de morir que una mujer, pero ¿cuánto más probable? Dado que más de la mitad de los pasajeros murieron, la suposición de enfermedades raras se viola en gran medida.

Para calcular la razón de probabilidades, tenga en cuenta que para las mujeres las probabilidades de morir eran de 1 a 2 (154/308). Para los hombres, las probabilidades eran de 5 a 1 (709/142). La razón de probabilidades es 9,99 (4,99 / 0,5). Los hombres tenían diez veces más probabilidades de morir que las mujeres.

Para las mujeres, la probabilidad de muerte fue del 33% (154/462). Para los hombres, la probabilidad fue del 83% (709/851). El riesgo relativo de muerte es de 2,5 (.83 / .33). Un hombre tenía 2,5 veces la probabilidad de morir de una mujer.

¿Qué número representa correctamente cuánto más peligroso era ser un hombre en el Titanic? El riesgo relativo tiene la ventaja de ser más fácil de entender y de representar mejor cómo piensa la gente.

Confusión y exageración

En la literatura médica, las razones de probabilidad se han confundido a menudo con el riesgo relativo. Para los no estadísticos, la razón de posibilidades es un concepto difícil de comprender y proporciona una cifra más impresionante del efecto. Sin embargo, la mayoría de los autores consideran que el riesgo relativo se comprende fácilmente. En un estudio, los miembros de una fundación nacional de enfermedades en realidad tenían 3,5 veces más probabilidades que los no miembros de haber oído hablar de un tratamiento común para esa enfermedad, pero la razón de probabilidades era 24 y el documento indicaba que los miembros tenían 'más de 20 veces más probabilidades haber oído hablar del tratamiento. Un estudio de artículos publicados en dos revistas informó que el 26% de los artículos que utilizaron una razón de probabilidades la interpretaron como una razón de riesgo.

Esto puede reflejar el simple proceso de autores incomprensibles que eligen la figura más impresionante y publicable. Pero su uso puede, en algunos casos, ser deliberadamente engañoso. Se ha sugerido que la razón de posibilidades solo debe presentarse como una medida del tamaño del efecto cuando la razón de riesgo no se puede estimar directamente.

Invertibilidad e invariancia

La razón de posibilidades tiene otra propiedad única de ser directamente matemáticamente invertible, ya sea que se analice el OR como supervivencia de la enfermedad o como incidencia de aparición de la enfermedad, donde el OR para la supervivencia es recíproco directo de 1 / OR para el riesgo. Esto se conoce como la "invariancia de la razón de posibilidades". Por el contrario, el riesgo relativo no posee esta propiedad matemática invertible cuando se estudia la supervivencia de la enfermedad frente a la incidencia de aparición. Este fenómeno de invertibilidad OR frente a no invertibilidad RR se ilustra mejor con un ejemplo:

Supongamos que en un ensayo clínico, uno tiene un riesgo de eventos adversos de 4/100 en el grupo de medicamentos y 2/100 en el placebo ... lo que arroja un RR = 2 y una OR = 2.04166 para el riesgo adverso de medicamento versus placebo. Sin embargo, si el análisis se invirtiera y los eventos adversos se analizaran como supervivencia libre de eventos, entonces el grupo de fármaco tendría una tasa de 96/100 y el grupo de placebo tendría una tasa de 98/100, lo que produciría una tasa de fármaco versus placebo. un RR = 0,9796 para la supervivencia, pero un OR = 0,48979. Como se puede ver, un RR de 0,9796 claramente no es el recíproco de un RR de 2. En contraste, un OR de 0,48979 es de hecho el recíproco directo de un OR de 2,04166.

Esto es nuevamente lo que se llama la 'invarianza de la razón de posibilidades', y por qué un RR para la supervivencia no es lo mismo que un RR para el riesgo, mientras que el OR tiene esta propiedad simétrica cuando se analiza la supervivencia o el riesgo adverso. El peligro para la interpretación clínica del OR surge cuando la tasa de eventos adversos no es rara, exagerando así las diferencias cuando no se cumple el supuesto de enfermedad rara del OR. Por otro lado, cuando la enfermedad es rara, el uso de un RR para la supervivencia (por ejemplo, el RR = 0,9796 del ejemplo anterior) puede ocultar y ocultar clínicamente una duplicación importante del riesgo adverso asociado con un fármaco o exposición.

Estimadores de la razón de posibilidades

Muestra de razón de posibilidades

La razón de probabilidades de la muestra n 11 n 00  /  n 10 n 01 es fácil de calcular y, para muestras moderadas y grandes, funciona bien como un estimador de la razón de probabilidades de la población. Cuando una o más de las celdas de la tabla de contingencia pueden tener un valor pequeño, la razón de probabilidades de la muestra puede estar sesgada y presentar una gran varianza .

Estimadores alternativos

Se han propuesto varios estimadores alternativos de la razón de probabilidades para abordar las limitaciones de la razón de probabilidades de la muestra. Un estimador alternativo es el estimador de máxima verosimilitud condicional, que condiciona los márgenes de las filas y columnas cuando se forma la probabilidad de maximizar (como en la prueba exacta de Fisher ). Otro estimador alternativo es el estimador de Mantel-Haenszel .

Ejemplos numéricos

Las siguientes cuatro tablas de contingencia contienen recuentos de celdas observados, junto con la razón de probabilidades ( OR ) de muestra correspondiente y la razón de probabilidades del registro de muestra ( LOR ):

O  = 1, LOR  = 0 O  = 1, LOR  = 0 O  = 4, LOR  = 1.39 O  = 0,25, LOR  = −1,39
Y  = 1 Y  = 0 Y  = 1 Y  = 0 Y  = 1 Y  = 0 Y  = 1 Y  = 0
X  = 1 10 10 100 100 20 10 10 20
X  = 0 5 5 50 50 10 20 20 10

Las siguientes distribuciones de probabilidad conjunta contienen las probabilidades de las celdas de población, junto con la correspondiente razón de probabilidades ( OR ) de población y la razón de probabilidades logarítmica de la población ( LOR ):

O  = 1, LOR  = 0 O  = 1, LOR  = 0 O  = 16, LOR  = 2.77 O  = 0,67, LOR  = −0,41
Y  = 1 Y  = 0 Y  = 1 Y  = 0 Y  = 1 Y  = 0 Y  = 1 Y  = 0
X  = 1 0,2 0,2 0.4 0.4 0.4 0,1 0,1 0,3
X  = 0 0,3 0,3 0,1 0,1 0,1 0.4 0,2 0.4

Ejemplo numérico

Ejemplo de reducción de riesgos
Grupo experimental (E) Grupo de control (C) Total
Eventos (E) EE = 15 CE = 100 115
No eventos (N) EN = 135 CN = 150 285
Total de sujetos (S) ES = EE + EN = 150 CS = CE + CN = 250 400
Tasa de eventos (ER) EER = EE / ES = 0,1 o 10% CER = CE / CS = 0,4 o 40%
Ecuación Variable Abbr. Valor
CER - EER reducción absoluta del riesgo ARR 0,3 o 30%
(CER - EER) / CER reducción de riesgo relativo RRR 0,75 o 75%
1 / (CER - EER) número necesario para tratar NNT 3.33
EER / CER Radio de riesgo RR 0,25
(EE / EN) / (CE / CN) razón de probabilidades O 0,167
(CER - EER) / CER fracción prevenible entre los no expuestos PF u 0,75

Estadísticas relacionadas

Hay varias otras estadísticas resumidas para tablas de contingencia que miden la asociación entre dos eventos, como Yule's Y , Yule's Q ; estos dos están normalizados, por lo que son 0 para eventos independientes, 1 para perfectamente correlacionados, -1 para perfectamente correlacionados negativamente. Edwards (1963) los estudió y argumentó que estas medidas de asociación deben ser funciones de la razón de probabilidades, a la que se refirió como razón cruzada .

Ver también

Referencias

Citas

Fuentes

enlaces externos