LogSumExp - LogSumExp

El LogSumExp (LSE) (también llamado RealSoftMax o multivariable SoftPlus ) función es un máximo liso - una suave aproximación a la máxima función, utilizado principalmente por aprendizaje de máquina algoritmos. Se define como el logaritmo de la suma de las exponenciales de los argumentos:

{\ Displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (\ exp (x_ {1}) + \ cdots + \ exp (x_ {n}) \ right ).}

Propiedades

El dominio de la función LogSumExp es el espacio de coordenadas real y su codominio es la línea real . Es una aproximación al máximo con los siguientes límites ${\ Displaystyle \ mathbb {R} ^ {n}}$ ${\ Displaystyle \ mathbb {R}}$ ${\ Displaystyle \ max _ {i} x_ {i}}$

{\ Displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} \ leq \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

La primera desigualdad es estricta a menos que . La segunda desigualdad es estricta a menos que todos los argumentos sean iguales. (Prueba: Sea . Entonces . Al aplicar el logaritmo a la desigualdad se obtiene el resultado). ${\ Displaystyle n = 1}$ ${\ Displaystyle m = \ max _ {i} x_ {i}}$ ${\ Displaystyle \ exp (m) \ leq \ sum _ {i = 1} ^ {n} \ exp (x_ {i}) \ leq n \ exp (m)}$

Además, podemos escalar la función para hacer que los límites sean más estrictos. Considere la función . Luego ${\ Displaystyle {\ frac {1} {t}} \ mathrm {LSE} (tx)}$

{\ Displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} <{\ frac {1} {t}} \ mathrm {LSE} (tx) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + {\ frac {\ log (n)} {t}}.}

(Prueba: Reemplace cada uno con por algunos en las desigualdades anteriores, para obtener ${\ Displaystyle x_ {i}}$ ${\ displaystyle tx_ {i}}$ ${\ Displaystyle t> 0}$

{\ Displaystyle \ max {\ {tx_ {1}, \ dots, tx_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq \ max {\ { tx_ {1}, \ dots, tx_ {n} \}} + \ log (n).}

y desde ${\ Displaystyle t> 0}$

{\ Displaystyle t \ max {\ {x_ {1}, \ dots, x_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq t \ max { \ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

finalmente, dividir por da el resultado). ${\ Displaystyle t}$

Además, si multiplicamos por un número negativo, por supuesto, encontramos una comparación con la función: ${\ Displaystyle \ min}$

{\ Displaystyle \ min {\ {x_ {1}, \ dots, x_ {n} \}} - {\ frac {\ log (n)} {t}} \ leq {\ frac {1} {- t} } \ mathrm {LSE} (-tx) <\ min {\ {x_ {1}, \ dots, x_ {n} \}}.}

La función LogSumExp es convexa y está aumentando estrictamente en todas partes en su dominio (pero no estrictamente convexa en todas partes).

Escribiendo las derivadas parciales son: ${\ Displaystyle \ mathbf {x} = (x_ {1}, \ dots, x_ {n}),}$

{\ estilo de visualización {\ frac {\ parcial} {\ parcial x_ {i}}} {\ mathrm {LSE} (\ mathbf {x})} = {\ frac {\ exp x_ {i}} {\ sum _ { j} \ exp {x_ {j}}}},}

lo que significa que el gradiente de LogSumExp es la función softmax .

El conjugado convexo de LogSumExp es la entropía negativa .

truco log-sum-exp para cálculos de dominio de registro

La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica .

Similar a las operaciones de multiplicación en escala lineal que se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:

{\ Displaystyle \ mathrm {LSE} (\ log (x_ {1}), ..., \ log (x_ {n})) = \ log (x_ {1} + \ dots + x_ {n})}

Un propósito común de usar cálculos de dominio logarítmico es aumentar la precisión y evitar problemas de subdesbordamiento y desbordamiento cuando se representan directamente números muy pequeños o muy grandes (es decir, en un dominio lineal) utilizando números de punto flotante de precisión limitada.

Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento / subdesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente en su lugar (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT ++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.

{\ Displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = x ^ {*} + \ log \ left (\ exp (x_ {1} -x ^ {*}) + \ cdots + \ exp (x_ {n} -x ^ {*}) \ right)}

dónde ${\ Displaystyle x ^ {*} = \ max {\ {x_ {1}, \ dots, x_ {n} \}}}$

Una función de tipo log-sum-exp estrictamente convexa

LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa agregando un argumento adicional establecido en cero:

{\ Displaystyle \ mathrm {LSE} _ {0} ^ {+} (x_ {1}, ..., x_ {n}) = \ mathrm {LSE} (0, x_ {1}, ..., x_ {norte})}

Esta función es un generador de Bregman adecuado (estrictamente convexo y diferenciable ). Se encuentra en el aprendizaje automático, por ejemplo, como el acumulador de la familia multinomial / binomial.

En el análisis tropical , esta es la suma del registro semirrígido .

Languages

In other projects

LogSumExp - LogSumExp

Contenido

Propiedades

truco log-sum-exp para cálculos de dominio de registro

Una función de tipo log-sum-exp estrictamente convexa

Ver también

Referencias