Método empírico de Bayes - Empirical Bayes method

Los métodos empíricos de Bayes son procedimientos de inferencia estadística en los que la distribución previa se estima a partir de los datos. Este enfoque contrasta con los métodos bayesianos estándar , para los que la distribución previa se fija antes de que se observe cualquier dato. A pesar de esta diferencia de perspectiva, el Bayes empírico puede verse como una aproximación a un tratamiento completamente bayesiano de un modelo jerárquico en el que los parámetros en el nivel más alto de la jerarquía se establecen en sus valores más probables, en lugar de integrarse. Bayes empírico, también conocido como probabilidad marginal máxima , representa un enfoque para establecer hiperparámetros .

Introducción

Los métodos empíricos de Bayes pueden verse como una aproximación a un tratamiento completamente bayesiano de un modelo de Bayes jerárquico .

En, por ejemplo, un modelo de Bayes jerárquico de dos etapas, se supone que los datos observados se generan a partir de un conjunto de parámetros no observados de acuerdo con una distribución de probabilidad . A su vez, los parámetros pueden considerarse muestras extraídas de una población caracterizada por hiperparámetros según una distribución de probabilidad . En el modelo jerárquico de Bayes, aunque no en la aproximación empírica de Bayes, los hiperparámetros se consideran extraídos de una distribución no parametrizada .

La información sobre una determinada cantidad de interés, por lo tanto, proviene no solo de las propiedades de aquellos datos que dependen directamente de ella, sino también de las propiedades de la población de parámetros en su conjunto, inferida de los datos en su conjunto, resumidos por los hiperparámetros .

Usando el teorema de Bayes ,

En general, esta integral no será tratable analítica o simbólicamente y debe ser evaluada por métodos numéricos . Se pueden utilizar aproximaciones estocásticas (aleatorias) o deterministas. Ejemplos de métodos estocásticos son la cadena de Markov Monte Carlo y el muestreo de Monte Carlo . Las aproximaciones deterministas se discuten en cuadratura .

Alternativamente, la expresión se puede escribir como

y el término en la integral a su vez se puede expresar como

Estos sugieren un esquema iterativo, cualitativamente similar en estructura a un muestreador de Gibbs , para desarrollar aproximaciones sucesivamente mejoradas hacia y . Primero, calcule una aproximación inicial para ignorar la dependencia por completo; luego calcule una aproximación a basándose en la distribución aproximada inicial de ; luego use esto para actualizar la aproximación para ; luego actualice ; etcétera.

Cuando la distribución verdadera tiene un pico pronunciado, la determinación integral puede no cambiar mucho al reemplazar la distribución de probabilidad por una estimación puntual que represente el pico de la distribución (o, alternativamente, su media),

Con esta aproximación, el esquema iterativo anterior se convierte en el algoritmo EM .

El término "Bayes empírico" puede abarcar una amplia variedad de métodos, pero la mayoría puede considerarse como un truncamiento temprano del esquema anterior o algo similar. Las estimaciones puntuales, en lugar de la distribución completa, se utilizan normalmente para los parámetros . Las estimaciones de se realizan típicamente a partir de la primera aproximación sin un refinamiento posterior. Estas estimaciones de normalmente se realizan sin considerar una distribución previa adecuada de .

Estimación puntual

Método de Robbins: Bayes empírico no paramétrico (NPEB)

Robbins consideró un caso de muestreo de una distribución mixta , donde la probabilidad de cada (condicional a ) se especifica mediante una distribución de Poisson ,

mientras que el anterior en θ no está especificado excepto que también es iid de una distribución desconocida, con función de distribución acumulativa . El muestreo compuesto surge en una variedad de problemas de estimación estadística, como las tasas de accidentes y los ensayos clínicos. Simplemente buscamos una predicción puntual de todos los datos observados. Debido a que el anterior es indeterminado, tratamos de hacer esto sin el conocimiento de G .

Bajo la pérdida de error al cuadrado (SEL), la expectativa condicional E ( θ i  |  Y i  =  y i ) es una cantidad razonable para usar en la predicción. Para el modelo de muestreo compuesto de Poisson, esta cantidad es

Esto se puede simplificar multiplicando la expresión por , produciendo

donde p G es la distribución marginal obtenida mediante la integración a cabo θ sobre G .

Para aprovechar esto, Robbins sugirió estimar los marginales con sus frecuencias empíricas, obteniendo la estimación completamente no paramétrica como:

donde denota "número de". (Consulte también Estimación de frecuencia de Good-Turing ).

Ejemplo: tasas de accidentes

Suponga que cada cliente de una compañía de seguros tiene una "tasa de accidentes" Θ y está asegurado contra accidentes; la distribución de probabilidad de Θ es la distribución subyacente y se desconoce. El número de accidentes sufridos por cada cliente en un período de tiempo específico tiene una distribución de Poisson con un valor esperado igual a la tasa de accidentes del cliente en particular. El número real de accidentes experimentados por un cliente es la cantidad observable. Una forma burda de estimar la distribución de probabilidad subyacente de la tasa de accidentes Θ es estimar la proporción de miembros de la población total que sufren 0, 1, 2, 3, ... accidentes durante el período de tiempo especificado como la proporción correspondiente en el período observado. muestra aleatoria. Una vez hecho esto, se desea predecir la tasa de accidentes de cada cliente de la muestra. Como se indicó anteriormente, se puede usar el valor esperado condicional de la tasa de accidentes Θ dado el número observado de accidentes durante el período de referencia. Así, si un cliente sufre seis accidentes durante el período de referencia, la tasa de accidentes estimada de ese cliente es 7 × [la proporción de la muestra que sufrió 7 accidentes] / [la proporción de la muestra que sufrió 6 accidentes]. Tenga en cuenta que si la proporción de personas que sufren k accidentes es una función decreciente de k , la tasa de accidentes prevista por el cliente será a menudo menor que su número observado de accidentes.

Este efecto de contracción es típico de los análisis empíricos de Bayes.

Bayes empírico paramétrico

Si la verosimilitud y su anterior adoptan formas paramétricas simples (como funciones de verosimilitud de 1 o 2 dimensiones con priores conjugados simples ), entonces el problema empírico de Bayes es solo estimar el marginal y los hiperparámetros usando el conjunto completo de medidas empíricas. Por ejemplo, un enfoque común, llamado estimación puntual de Bayes empírica paramétrica, es aproximar el marginal utilizando la estimación de máxima verosimilitud (MLE), o una expansión Moments , que permite expresar los hiperparámetros en términos de la media empírica y la varianza. Este marginal simplificado permite conectar los promedios empíricos en una estimación puntual para el anterior . La ecuación resultante para el anterior se simplifica enormemente, como se muestra a continuación.

Existen varios modelos Bayes empíricos paramétricos comunes, incluido el modelo Poisson-gamma (abajo), el modelo Beta-binomial , el modelo Gaussiano-Gaussiano , el modelo Dirichlet-multinomial , así como modelos específicos para regresión lineal bayesiana (ver más abajo) y Regresión lineal multivariante bayesiana . Los enfoques más avanzados incluyen modelos Bayes jerárquicos y modelos de mezcla Bayesiana .

Modelo gaussiano-gaussiano

Para obtener un ejemplo de estimación empírica de Bayes utilizando un modelo gaussiano-gaussiano, consulte Estimadores empíricos de Bayes .

Modelo de Poisson-gamma

Por ejemplo, en el ejemplo anterior, deje que la probabilidad sea una distribución de Poisson , y deje que el anterior ahora sea especificado por el conjugado anterior , que es una distribución gamma ( ) (donde ):

Es sencillo mostrar que la parte posterior también es una distribución gamma. Escribir

donde se ha omitido la distribución marginal ya que no depende explícitamente de . La expansión de términos que dependen de da el posterior como:

Entonces, la densidad posterior también es una distribución gamma , donde , y . También observe que el marginal es simplemente la integral del posterior sobre todo , lo que resulta ser una distribución binomial negativa .

Para aplicar Bayes empírico, aproximaremos el marginal utilizando la estimación de máxima verosimilitud (MLE). Pero dado que el posterior es una distribución gamma, el MLE del marginal resulta ser solo la media del posterior, que es la estimación puntual que necesitamos. Recordando que la media de una distribución gamma es simplemente , tenemos

Para obtener los valores de y , empírico Bayes prescribe estimar la media y la varianza utilizando el conjunto completo de datos empíricos.

Por tanto, la estimación puntual resultante es como un promedio ponderado de la media muestral y la media anterior . Esto resulta ser una característica general del Bayes empírico; las estimaciones puntuales de la estimación previa (es decir, la media) se verán como promedios ponderados de la estimación muestral y la estimación previa (también para las estimaciones de la varianza).

Ver también

Referencias

Otras lecturas

enlaces externos