Entropía cruzada - Cross entropy

En la teoría de la información , la entropía cruzada entre dos distribuciones de probabilidad y sobre el mismo conjunto subyacente de eventos mide el número promedio de bits necesarios para identificar un evento extraído del conjunto si un esquema de codificación utilizado para el conjunto está optimizado para una distribución de probabilidad estimada. , en lugar de la verdadera distribución .

Definición

La entropía cruzada de la distribución relativa a una distribución sobre un conjunto dado se define de la siguiente manera:

,

donde es el operador de valor esperado con respecto a la distribución .

La definición se puede formular utilizando la divergencia de Kullback-Leibler , la divergencia de desde (también conocida como la entropía relativa de con respecto a ).

,

donde está la entropía de .

Para distribuciones de probabilidad discretas y con el mismo soporte, esto significa

 

 

 

 

( Ecuación 1 )

La situación de las distribuciones continuas es análoga. Tenemos que asumir que y son absolutamente continuos con respecto a alguna medida de referencia (normalmente es una medida de Lebesgue en un σ-álgebra de Borel ). Sean y sean funciones de densidad de probabilidad de y con respecto a . Luego

y por lo tanto

 

 

 

 

( Ecuación 2 )

NB: La notación también se usa para un concepto diferente, la entropía conjunta de y .

Motivación

En teoría de la información , el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades puede verse como una representación de una distribución de probabilidad implícita sobre , donde es la longitud del código para en bits. Por lo tanto, la entropía cruzada se puede interpretar como la longitud esperada del mensaje por dato cuando se asume una distribución incorrecta mientras que los datos realmente siguen una distribución . Es por eso que la expectativa se toma sobre la verdadera distribución de probabilidad y no . De hecho, la longitud esperada del mensaje bajo la distribución verdadera es,

Estimacion

Hay muchas situaciones en las que es necesario medir la entropía cruzada, pero se desconoce la distribución de . Un ejemplo es el modelado de lenguaje , donde se crea un modelo basado en un conjunto de entrenamiento , y luego se mide su entropía cruzada en un conjunto de prueba para evaluar qué tan preciso es el modelo en la predicción de los datos de prueba. En este ejemplo, es la verdadera distribución de palabras en cualquier corpus, y es la distribución de palabras como predice el modelo. Dado que se desconoce la distribución real, la entropía cruzada no se puede calcular directamente. En estos casos, se calcula una estimación de la entropía cruzada mediante la siguiente fórmula:

donde es el tamaño del conjunto de prueba y es la probabilidad de evento estimada a partir del conjunto de entrenamiento. En otras palabras, es la estimación de probabilidad del modelo que es la i-ésima palabra del texto . La suma se promedia sobre las palabras de la prueba. Esta es una estimación de Monte Carlo de la verdadera entropía cruzada, donde el conjunto de prueba se trata como muestras de .

Relación con la probabilidad logarítmica

En los problemas de clasificación queremos estimar la probabilidad de diferentes resultados. Deje que la probabilidad estimada de que el resultado sea con parámetros optimizados para ser-- y dejar que la frecuencia (probabilidad empírica) del resultado en el conjunto de entrenamiento sea . Dadas N muestras condicionalmente independientes en el conjunto de entrenamiento, entonces la probabilidad de los parámetros del modelo en el conjunto de entrenamiento es

por lo que la probabilidad logarítmica, dividida por es

de modo que maximizar la probabilidad con respecto a los parámetros es lo mismo que minimizar la entropía cruzada.

Minimización de entropía cruzada

La minimización de entropía cruzada se utiliza con frecuencia en la optimización y la estimación de probabilidad de eventos raros. Al comparar una distribución con una distribución de referencia fija , la entropía cruzada y la divergencia KL son idénticas hasta una constante aditiva (ya que es fija): ambas toman sus valores mínimos cuando , que es para la divergencia KL y para la entropía cruzada. En la literatura de ingeniería, el principio de minimizar la divergencia de KL (" Principio de información mínima de discriminación " de Kullback ) se denomina a menudo Principio de entropía cruzada mínima (MCE) o Minxent .

Sin embargo, como se discutió en el artículo Divergencia de Kullback-Leibler , a veces la distribución es la distribución de referencia previa fija, y la distribución se optimiza para ser lo más cercana posible, sujeta a alguna restricción. En este caso, las dos minimizaciones no son equivalentes. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia redefiniendo la entropía cruzada como ser , en lugar de .

Función de pérdida de entropía cruzada y regresión logística

La entropía cruzada se puede utilizar para definir una función de pérdida en el aprendizaje automático y la optimización . La probabilidad verdadera es la etiqueta verdadera y la distribución dada es el valor predicho del modelo actual.

Más específicamente, considere la regresión logística , que (entre otras cosas) se puede utilizar para clasificar las observaciones en dos clases posibles (a menudo simplemente etiquetadas y ). La salida del modelo para una observación dada, dado un vector de características de entrada , se puede interpretar como una probabilidad, que sirve como base para clasificar la observación. La probabilidad se modela usando la función logística donde es alguna función del vector de entrada , comúnmente solo una función lineal. La probabilidad de la salida viene dada por

donde el vector de pesos se optimiza mediante algún algoritmo apropiado, como el descenso de gradiente . De manera similar, la probabilidad complementaria de encontrar la salida viene dada simplemente por

Habiendo configurado nuestra notación, y , podemos usar la entropía cruzada para obtener una medida de disimilitud entre y :

La regresión logística generalmente optimiza la pérdida de registro para todas las observaciones en las que se entrena, que es lo mismo que optimizar la entropía cruzada promedio en la muestra. Por ejemplo, suponga que tenemos muestras con cada muestra indexada por . El promedio de la función de pérdida viene dado por:

donde , con la función logística como antes.

La pérdida logística a veces se denomina pérdida de entropía cruzada. También se conoce como pérdida de registro (en este caso, la etiqueta binaria a menudo se indica con {-1, + 1}).

Observación: El gradiente de la pérdida de entropía cruzada para la regresión logística es el mismo que el gradiente de la pérdida de error al cuadrado para la regresión lineal . Es decir, definir

Entonces tenemos el resultado

La prueba es como sigue. Para cualquiera , tenemos

De manera similar, eventualmente obtenemos el resultado deseado.

Ver también

Referencias

enlaces externos