Teoría de la información y teoría de la medida - Information theory and measure theory

Este artículo analiza cómo la teoría de la información (una rama de las matemáticas que estudia la transmisión, procesamiento y almacenamiento de información ) se relaciona con la teoría de la medida (una rama de las matemáticas relacionada con la integración y la probabilidad ).

Medidas en teoría de la información

Muchos de los conceptos de la teoría de la información tienen definiciones y fórmulas separadas para casos continuos y discretos . Por ejemplo, la entropía generalmente se define para variables aleatorias discretas, mientras que para las variables aleatorias continuas se usa el concepto relacionado de entropía diferencial , escrito (ver Cover y Thomas, 2006, capítulo 8). Ambos conceptos son expectativas matemáticas , pero la expectativa se define con una integral para el caso continuo y una suma para el caso discreto.

Estas definiciones separadas pueden estar más estrechamente relacionadas en términos de teoría de la medida . Para variables aleatorias discretas, las funciones de masa de probabilidad se pueden considerar funciones de densidad con respecto a la medida de conteo. Pensar tanto en la integral como en la suma como integración en un espacio de medida permite un tratamiento unificado.

Considere la fórmula para la entropía diferencial de una variable aleatoria continua con función de densidad de rango y probabilidad :

Esto generalmente se puede interpretar como la siguiente integral de Riemann-Stieltjes :

donde está la medida de Lebesgue .

Si por el contrario, es discreta, con un rango de un conjunto finito, es una función de masa de probabilidad en , y es la medida de recuento en , podemos escribir:

La expresión integral y el concepto general son idénticos en el caso continuo; la única diferencia es la medida utilizada. En ambos casos, la función de densidad de probabilidad es la derivada Radon-Nikodym de la medida de probabilidad con respecto a la medida contra la cual se toma la integral.

Si es la medida de probabilidad inducida por , entonces la integral también se puede tomar directamente con respecto a :

Si en lugar de la medida subyacente μ tomamos otra medida de probabilidad , se nos lleva a la divergencia de Kullback-Leibler : sean y sean medidas de probabilidad sobre el mismo espacio. Entonces, si es absolutamente continua con respecto a , por escrito el derivado de Radon-Nikodym existe y la divergencia de Kullback-Leibler se puede expresar en toda su generalidad:

donde la integral pasa por encima del soporte de Observe que hemos eliminado el signo negativo: la divergencia de Kullback-Leibler siempre es no negativa debido a la desigualdad de Gibbs .

La entropía como "medida"

Diagrama de Venn de varias medidas de información asociados con variables correlacionadas X y Y . El área contenida por ambos círculos es la entropía conjunta H ( X , Y ). El círculo de la izquierda (rojo y cian) es la entropía individual H ( X ), siendo el rojo la entropía condicional H ( X | Y ). El círculo de la derecha (azul y cian) es H ( Y ), y el azul es H ( Y | X ). El cian es la información mutua I ( X ; Y ).
Diagrama de Venn de medidas teóricas de la información para tres variables x , y y z . Cada círculo representa una entropía individual : H ( x ) es el círculo inferior izquierdo, H ( y ) es el círculo inferior derecho y H ( z ) es el círculo superior. Las intersecciones de dos círculos cualesquiera representan la información mutua de las dos variables asociadas (por ejemplo, I ( x ; z ) es amarillo y gris). La unión de dos círculos cualesquiera es la entropía conjunta de las dos variables asociadas (por ejemplo, H ( x , y ) es todo menos verde). La entropía conjunta H ( x , y , z ) de las tres variables es la unión de los tres círculos. Está dividido en 7 piezas, rojo, azul y verde son las entropías condicionales H ( x | y , z ), H ( y | x , z ), H ( z | x , y ) respectivamente, amarillo, magenta y cian. siendo las informaciones mutuas condicionales I ( x ; z | y ), I ( y ; z | x ) e I ( x ; y | z ) respectivamente, y siendo gris la información mutua multivariada I ( x ; y ; z ). La información mutua multivariante es la única de todas que puede ser negativa.

Existe una analogía entre las " medidas " básicas de Shannon del contenido de información de las variables aleatorias y una medida sobre conjuntos. Es decir, la entropía conjunta , entropía condicional , y la información mutua pueden considerarse como la medida de una unión de conjuntos , diferencia de conjuntos , y intersección de conjuntos , respectivamente (Reza pp. 106-108).

Si asociamos la existencia de conjuntos abstractos y a variables aleatorias discretas arbitrarias X e Y , representando de alguna manera la información que llevan X e Y , respectivamente, de manera que:

  • siempre que X e Y sean incondicionalmente independientes , y
  • siempre que X e Y sean tales que uno esté completamente determinado por el otro (es decir, por una biyección);

donde es una medida firmada sobre estos conjuntos, y establecemos:

encontramos que la "medida" del contenido de información de Shannon satisface todos los postulados y propiedades básicas de una medida formal con signo sobre conjuntos, como se ilustra comúnmente en un diagrama de información . Esto permite escribir la suma de dos compases:

y el análogo del teorema de Bayes ( ) permite escribir la diferencia de dos medidas:

Este puede ser un dispositivo mnemónico útil en algunas situaciones, p. Ej.

Tenga en cuenta que las medidas (valores esperados del logaritmo de las probabilidades verdaderas) se llaman "entropía" y por lo general representado por la letra H , mientras que otras medidas se refieren a menudo como "información" o "correlación" y por lo general representado por la letra I . Para simplificar la notación, la letra I se usa a veces para todas las medidas.

Información mutua multivariante

Ciertas extensiones a las definiciones de las medidas básicas de información de Shannon son necesarias para tratar con el σ-álgebra generada por los conjuntos que estarían asociados a tres o más variables aleatorias arbitrarias. (Ver Reza pp. 106-108 para una discusión informal pero bastante completa.) Es decir, necesita definirse de la manera obvia como la entropía de una distribución conjunta, y una información mutua multivariante definida de manera adecuada para que podamos establecer:

para definir la medida (con signo) sobre todo el σ-álgebra. No existe una definición única universalmente aceptada para la información mutua mutivariada, pero la que corresponde aquí a la medida de una intersección de conjuntos se debe a Fano (1966: p. 57-59). La definición es recursiva. Como un caso base la información mutua de una sola variable aleatoria se define como su entropía: . Entonces para nosotros establecemos

donde la información mutua condicional se define como

El primer paso en la recursividad produce la definición de Shannon La información mutua multivariante (igual que la información de interacción pero para un cambio de signo) de tres o más variables aleatorias puede ser tanto negativa como positiva: sean X e Y dos lanzamientos de moneda justos independientes, y deje que Z sea ​​su exclusiva o . Luego mordió.

Son posibles muchas otras variaciones para tres o más variables aleatorias: por ejemplo, es la información mutua de la distribución conjunta de X e Y en relación con Z , y se puede interpretar como muchas expresiones más complicadas se pueden construir de esta manera, y todavía tienen significado , p. ej. o

Referencias

  • Thomas M. Cover y Joy A. Thomas. Elements of Information Theory , segunda edición, 2006. Nueva Jersey: Wiley and Sons. ISBN   978-0-471-24195-9 .
  • Fazlollah M. Reza. Introducción a la teoría de la información . Nueva York: McGraw – Hill 1961. Nueva York: Dover 1994. ISBN   0-486-68210-2
  • Fano, RM (1966), Transmisión de información: una teoría estadística de las comunicaciones , MIT Press , ISBN   978-0-262-56169-3 , OCLC   804123877
  • RW Yeung, "Sobre entropía, desigualdades de información y grupos". PD

Ver también