Probabilidad logarítmica - Log probability

En la teoría de la probabilidad y la informática , una probabilidad logarítmica es simplemente un logaritmo de una probabilidad . El uso de probabilidades logarítmicas significa representar probabilidades en una escala logarítmica , en lugar del intervalo unitario estándar .

Dado que las probabilidades de eventos independientes se multiplican y los logaritmos convierten la multiplicación en suma, las probabilidades logarítmicas de eventos independientes se suman. Por lo tanto, las probabilidades logarítmicas son prácticas para los cálculos y tienen una interpretación intuitiva en términos de la teoría de la información : el negativo de la probabilidad logarítmica promedio es la entropía de la información de un evento. De manera similar, las probabilidades a menudo se transforman a la escala logarítmica, y la probabilidad logarítmica correspondiente se puede interpretar como el grado en que un evento respalda un modelo estadístico . La probabilidad logarítmica se usa ampliamente en implementaciones de cálculos con probabilidad y se estudia como un concepto por derecho propio en algunas aplicaciones de la teoría de la información, como el procesamiento del lenguaje natural .

Motivación

Representar probabilidades de esta manera tiene varias ventajas prácticas:

  1. Velocidad. Dado que la multiplicación es más cara que la suma, tomar el producto de un número elevado de probabilidades suele ser más rápido si se representan en forma logarítmica. (La conversión a la forma logarítmica es costosa, pero solo se realiza una vez). La multiplicación surge del cálculo de la probabilidad de que ocurran múltiples eventos independientes: la probabilidad de que ocurran todos los eventos independientes de interés es el producto de todas las probabilidades de estos eventos.
  2. Precisión. El uso de probabilidades logarítmicas mejora la estabilidad numérica , cuando las probabilidades son muy pequeñas, debido a la forma en que las computadoras se aproximan a los números reales .
  3. Sencillez. Muchas distribuciones de probabilidad tienen una forma exponencial. Tomar el logaritmo de estas distribuciones elimina la función exponencial, desenvolviendo el exponente. Por ejemplo, la probabilidad logarítmica de la función de densidad de probabilidad de la distribución normal es en lugar de . Las probabilidades logarítmicas facilitan la realización de algunas manipulaciones matemáticas.

Problemas de representación

La función de logaritmo no está definida para cero, por lo que las probabilidades logarítmicas solo pueden representar probabilidades distintas de cero. Dado que el logaritmo de un número en el intervalo es negativo, a menudo se utilizan las probabilidades logarítmicas negativas. En ese caso, las probabilidades logarítmicas en las siguientes fórmulas se invertirían .

Se puede seleccionar cualquier base para el logaritmo.

Manipulaciones básicas

El producto de probabilidades corresponde a la suma en el espacio logarítmico.

La suma de probabilidades es un poco más complicada de calcular en el espacio logarítmico, lo que requiere el cálculo de un exponente y un logaritmo.

Sin embargo, en muchas aplicaciones una multiplicación de probabilidades (dando la probabilidad de que ocurran todos los eventos independientes) se usa con más frecuencia que su suma (dando la probabilidad de que ocurra al menos uno de ellos). Además, el costo de calcular la suma se puede evitar en algunas situaciones simplemente usando la probabilidad más alta como una aproximación. Dado que las probabilidades no son negativas, esto da un límite inferior. Esta aproximación se usa a la inversa para obtener una aproximación continua de la función máxima .

Adición en el espacio de registro

La fórmula anterior es más precisa que , siempre que se aproveche la asimetría en la fórmula de adición. debe ser el más grande (menos negativo) de los dos operandos. Esto también produce el comportamiento correcto si uno de los operandos es infinito negativo de coma flotante , que corresponde a una probabilidad de cero.

Esta cantidad es indeterminada y dará como resultado NaN .
Esta es la respuesta deseada.

La fórmula anterior por sí sola producirá incorrectamente un resultado indeterminado en el caso en que ambos argumentos sean . Esto debe comprobarse por separado para devolverlo .

Por razones numéricas, se debe usar una función que calcule ( log1p ) directamente.

Ver también