Teoría de la información - Information theory

La teoría de la información es el estudio científico de la cuantificación , almacenamiento y comunicación de información digital . El campo fue establecido fundamentalmente por las obras de Harry Nyquist y Ralph Hartley , en la década de 1920, y Claude Shannon en la década de 1940. El campo se encuentra en la intersección de la teoría de la probabilidad , la estadística , la informática , la mecánica estadística , la ingeniería de la información y la ingeniería eléctrica .

Una medida clave en la teoría de la información es la entropía . La entropía cuantifica la cantidad de incertidumbre involucrada en el valor de una variable aleatoria o el resultado de un proceso aleatorio . Por ejemplo, identificar el resultado de un lanzamiento de moneda justo (con dos resultados igualmente probables) proporciona menos información (menor entropía) que especificar el resultado de un lanzamiento de un dado (con seis resultados igualmente probables). Algunas otras medidas importantes en la teoría de la información son la información mutua , la capacidad del canal, los exponentes de error y la entropía relativa . Importantes sub-campos de la teoría de la información incluyen la codificación de fuente , teoría de la complejidad algorítmica , teoría de la información algorítmica , la seguridad de información teórica y teoría de la información de bloque de longitud finita .

Las aplicaciones de temas fundamentales de la teoría de la información incluyen la compresión de datos sin pérdida (por ejemplo, archivos ZIP ), la compresión de datos con pérdida (por ejemplo, MP3 y JPEG ) y la codificación de canales (por ejemplo, para DSL ). Su impacto ha sido crucial para el éxito de las misiones Voyager al espacio profundo, la invención del disco compacto , la viabilidad de los teléfonos móviles y el desarrollo de Internet. La teoría también ha encontrado aplicaciones en otras áreas, incluida la inferencia estadística , la criptografía , la neurobiología , la percepción , la lingüística, la evolución y función de los códigos moleculares ( bioinformática ), la física térmica , la dinámica molecular , la computación cuántica , los agujeros negros , la recuperación de información , la recopilación de inteligencia. , detección de plagio , reconocimiento de patrones , detección de anomalías e incluso creación de arte.

Visión general

La teoría de la información estudia la transmisión, procesamiento, extracción y utilización de información. De manera abstracta, la información puede considerarse como la resolución de la incertidumbre. En el caso de la comunicación de información a través de un canal ruidoso, este concepto abstracto fue formalizado en 1948 por Claude Shannon en un artículo titulado A Mathematical Theory of Communication , en el que se piensa en la información como un conjunto de posibles mensajes, y el objetivo es enviar estos mensajes por un canal ruidoso y hacer que el receptor reconstruya el mensaje con baja probabilidad de error, a pesar del ruido del canal. El principal resultado de Shannon, el teorema de codificación de canales ruidosos mostró que, en el límite de muchos usos de canales, la tasa de información que se puede alcanzar asintóticamente es igual a la capacidad del canal, una cantidad que depende simplemente de las estadísticas del canal sobre el cual los mensajes se envían.

La teoría de la codificación se ocupa de encontrar métodos explícitos, llamados códigos , para aumentar la eficiencia y reducir la tasa de error de la comunicación de datos a través de canales ruidosos hasta cerca de la capacidad del canal. Estos códigos se pueden subdividir aproximadamente en técnicas de compresión de datos (codificación de fuente) y corrección de errores (codificación de canal). En el último caso, se necesitaron muchos años para encontrar los métodos que el trabajo de Shannon demostró que eran posibles.

Una tercera clase de códigos de teoría de la información son los algoritmos criptográficos (tanto códigos como cifrados ). Los conceptos, métodos y resultados de la teoría de la codificación y la teoría de la información se utilizan ampliamente en criptografía y criptoanálisis . Consulte la prohibición del artículo (unidad) para obtener una aplicación histórica.

Antecedentes históricos

El acontecimiento histórico que estableció la disciplina de la teoría de la información y la llamó la atención mundial inmediata fue la publicación del artículo clásico de Claude E. Shannon "A Mathematical Theory of Communication" en el Bell System Technical Journal en julio y octubre de 1948.

Antes de este artículo, en Bell Labs se habían desarrollado ideas teóricas de información limitadas , todas asumiendo implícitamente eventos de igual probabilidad. El artículo de 1924 de Harry Nyquist , Certain Factors Affecting Telegraph Speed , contiene una sección teórica que cuantifica la "inteligencia" y la "velocidad de línea" a la que puede ser transmitida por un sistema de comunicación, dando la relación W = K log m (recordando la constante de Boltzmann ), donde W es la velocidad de transmisión de la inteligencia, m es el número de niveles de voltaje diferentes para elegir en cada paso de tiempo y K es una constante. El artículo de Ralph Hartley de 1928, Transmission of Information , usa la palabra información como una cantidad medible, lo que refleja la capacidad del receptor para distinguir una secuencia de símbolos de cualquier otra, cuantificando así la información como H = log S n = n log S , donde S era el número de símbolos posibles y n el número de símbolos en una transmisión. La unidad de información era, por tanto, el dígito decimal , que desde entonces a veces se ha llamado hartley en su honor como unidad o escala o medida de información. Alan Turing en 1940 utilizó ideas similares como parte del análisis estadístico de la ruptura de los cifrados Enigma de la Segunda Guerra Mundial alemana .

Gran parte de las matemáticas detrás de la teoría de la información con eventos de diferentes probabilidades fueron desarrolladas para el campo de la termodinámica por Ludwig Boltzmann y J. Willard Gibbs . Las conexiones entre la entropía teórica de la información y la entropía termodinámica, incluidas las importantes contribuciones de Rolf Landauer en la década de 1960, se exploran en Entropía en termodinámica y teoría de la información .

En el revolucionario e innovador artículo de Shannon, cuyo trabajo se había completado sustancialmente en Bell Labs a fines de 1944, Shannon introdujo por primera vez el modelo cualitativo y cuantitativo de la comunicación como un proceso estadístico subyacente a la teoría de la información, comenzando con la afirmación:

"El problema fundamental de la comunicación es el de reproducir en un punto, de forma exacta o aproximada, un mensaje seleccionado en otro punto".

Con él vinieron las ideas de

  • la entropía y redundancia de la información de una fuente, y su relevancia a través del teorema de codificación de la fuente ;
  • la información mutua y la capacidad de canal de un canal ruidoso, incluida la promesa de una comunicación perfecta sin pérdidas dada por el teorema de codificación de canal ruidoso;
  • el resultado práctico de la ley de Shannon-Hartley para la capacidad de canal de un canal gaussiano ; al igual que
  • el bit: una nueva forma de ver la unidad de información más fundamental.

Cantidades de información

La teoría de la información se basa en la teoría de la probabilidad y la estadística. La teoría de la información a menudo se ocupa de medidas de información de las distribuciones asociadas con variables aleatorias. Cantidades importantes de información son la entropía, una medida de información en una sola variable aleatoria, y la información mutua, una medida de información en común entre dos variables aleatorias. La primera cantidad es una propiedad de la distribución de probabilidad de una variable aleatoria y da un límite a la velocidad a la que los datos generados por muestras independientes con la distribución dada se pueden comprimir de manera confiable. Esta última es una propiedad de la distribución conjunta de dos variables aleatorias y es la tasa máxima de comunicación confiable a través de un canal ruidoso en el límite de longitudes de bloque largas, cuando las estadísticas del canal están determinadas por la distribución conjunta.

La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de información que se utiliza. Una unidad común de información es el bit, basado en el logaritmo binario . Otras unidades incluyen el nat , que se basa en el logaritmo natural , y el dígito decimal , que se basa en el logaritmo común .

En lo que sigue, una expresión de la forma p log p se considera por convención igual a cero siempre que p = 0 . Esto se justifica porque para cualquier base logarítmica.

Entropía de una fuente de información

Con base en la función de masa de probabilidad de cada símbolo fuente que se va a comunicar, la entropía de Shannon H , en unidades de bits (por símbolo), viene dada por

donde p i es la probabilidad de ocurrencia del i -ésimo valor posible del símbolo fuente. Esta ecuación da la entropía en unidades de "bits" (por símbolo) porque usa un logaritmo de base 2, y esta medida de entropía de base 2 a veces se ha llamado shannon en su honor. La entropía también se calcula comúnmente usando el logaritmo natural (base e , donde e es el número de Euler), que produce una medida de entropía en nats por símbolo y, a veces, simplifica el análisis al evitar la necesidad de incluir constantes adicionales en las fórmulas. También son posibles otras bases, pero se usan con menos frecuencia. Por ejemplo, un logaritmo de base 2 8 = 256 producirá una medida en bytes por símbolo, y un logaritmo de base 10 producirá una medida en dígitos decimales (o hartleys ) por símbolo.

Intuitivamente, la entropía H X de una variable aleatoria discreta X es una medida de la cantidad de incertidumbre asociada con el valor de X cuando solo se conoce su distribución.

La entropía de una fuente que emite una secuencia de N símbolos que son independientes e idénticamente distribuidos (iid) es NH bits (por mensaje de N símbolos). Si los símbolos de datos de origen se idénticamente distribuidas, pero no independiente, la entropía de un mensaje de longitud N será menor que NH .

La entropía de un ensayo de Bernoulli como función de la probabilidad de éxito, a menudo llamada función de entropía binaria , H b ( p ) . La entropía se maximiza a 1 bit por prueba cuando los dos resultados posibles son igualmente probables, como en un lanzamiento de moneda imparcial.

Si uno transmite 1000 bits (0 y 1), y el receptor conoce el valor de cada uno de estos bits (tiene un valor específico con certeza) antes de la transmisión, está claro que no se transmite información. Sin embargo, si cada bit es independientemente igual de probable que sea 0 o 1, se han transmitido 1000 shannons de información (más a menudo llamados bits). Entre estos dos extremos, la información se puede cuantificar de la siguiente manera. Si es el conjunto de todos los mensajes { x 1 , ..., x n } que X podría ser, y p ( x ) es la probabilidad de algunos , entonces se define la entropía, H , de X :

(Aquí, I ( x ) es la autoinformación , que es la contribución de entropía de un mensaje individual, y es el valor esperado .) Una propiedad de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables p ( x ) = 1 / n ; es decir, más impredecible, en cuyo caso H ( X ) = log n .

El caso especial de entropía de información para una variable aleatoria con dos resultados es la función de entropía binaria, usualmente llevada a la base logarítmica 2, por lo que tiene el shannon (Sh) como unidad:

Entropía conjunta

La entropía conjunta de dos variables aleatorias discretas X e Y es simplemente la entropía de su emparejamiento: ( X , Y ) . Esto implica que si X e Y son independientes , entonces su entropía conjunta es la suma de sus entropías individuales.

Por ejemplo, si ( X , Y ) representa la posición de una pieza de ajedrez: X la fila e Y la columna, entonces la entropía conjunta de la fila de la pieza y la columna de la pieza será la entropía de la posición de la pieza. pieza.

A pesar de una notación similar, la entropía conjunta no debe confundirse con la entropía cruzada .

Entropía condicional (equívoco)

La entropía condicional o incertidumbre condicional de X dada la variable aleatoria Y (también llamada el equívoco de X sobre Y ) es la entropía condicional promedio sobre Y :

Debido a que la entropía puede estar condicionada a que una variable aleatoria o que esa variable aleatoria sea un valor determinado, se debe tener cuidado de no confundir estas dos definiciones de entropía condicional, la primera de las cuales es de uso más común. Una propiedad básica de esta forma de entropía condicional es que:

Información mutua (transinformación)

La información mutua mide la cantidad de información que se puede obtener sobre una variable aleatoria al observar otra. Es importante en la comunicación, donde se puede utilizar para maximizar la cantidad de información compartida entre las señales enviadas y recibidas. La información mutua de X relativa a Y viene dada por:

donde SI ( S ESPECÍFICOS mutuo I nformación) es la información mutua puntual .

Una propiedad básica de la información mutua es que

Es decir, sabiendo Y , podemos ahorrar un promedio de I ( X ; Y ) los bits en la codificación de X en comparación con no saber Y .

La información mutua es simétrica :

La información mutua se puede expresar como la divergencia promedio de Kullback-Leibler (ganancia de información) entre la distribución de probabilidad posterior de X dado el valor de Y y la distribución anterior en X :

En otras palabras, se trata de una medida de la cantidad, por término medio, la distribución de probabilidad de X cambiará si se nos da el valor de Y . Esto a menudo se vuelve a calcular como la divergencia del producto de las distribuciones marginales a la distribución conjunta real:

Información mutua está estrechamente relacionada con la prueba de razón de verosimilitud logarítmica en el contexto de las tablas de contingencia y la distribución multinomial y χ de Pearson 2 pruebas : información mutua se puede considerar una estadística para evaluar la independencia entre un par de variables, y tiene un bien distribución asintótica especificada.

Divergencia de Kullback-Leibler (ganancia de información)

La divergencia de Kullback-Leibler (o divergencia de información , ganancia de información o entropía relativa ) es una forma de comparar dos distribuciones: una distribución de probabilidad "verdadera" y una distribución de probabilidad arbitraria . Si comprimimos los datos de una manera que supone que es la distribución subyacente a algunos datos, cuando, en realidad, es la distribución correcta, la divergencia de Kullback-Leibler es el número de bits adicionales promedio por dato necesarios para la compresión. Así se define

Aunque a veces se usa como una 'métrica de distancia', la divergencia KL no es una verdadera métrica, ya que no es simétrica y no satisface la desigualdad del triángulo (lo que la convierte en semicuasimétrica).

Otra interpretación de la divergencia KL es la "sorpresa innecesaria" introducida por un prior de la verdad: supongamos que un número X está a punto de ser extraído aleatoriamente de un conjunto discreto con distribución de probabilidad . Si Alicia conoce la verdadera distribución , mientras que Bob cree (tiene un antes ) que la distribución es , entonces Bob será más sorprendió que Alice, en promedio, al ver el valor de X . La divergencia KL es el valor esperado (objetivo) de la sorpresa (subjetiva) de Bob menos la sorpresa de Alice, medida en bits si el logaritmo está en base 2. De esta manera, la medida en que la prioridad de Bob es "incorrecta" se puede cuantificar en términos de lo "innecesariamente sorprendido" que se espera que lo haga.

Otras cantidades

Otras cantidades importantes de la teoría de la información incluyen la entropía de Rényi (una generalización de la entropía), la entropía diferencial (una generalización de cantidades de información a distribuciones continuas) y la información mutua condicional .

Teoría de la codificación

Una imagen que muestra rayas en la superficie legible de un CD-R. Los CD de música y datos se codifican mediante códigos de corrección de errores y, por lo tanto, se pueden leer incluso si tienen pequeños arañazos mediante la detección y corrección de errores .

La teoría de la codificación es una de las aplicaciones más importantes y directas de la teoría de la información. Puede subdividirse en teoría de codificación de fuente y teoría de codificación de canal. Utilizando una descripción estadística de los datos, la teoría de la información cuantifica el número de bits necesarios para describir los datos, que es la entropía de la información de la fuente.

  • Compresión de datos (codificación fuente): hay dos fórmulas para el problema de la compresión:
  • Códigos de corrección de errores (codificación de canal): si bien la compresión de datos elimina la mayor cantidad de redundancia posible, un código de corrección de errores agrega el tipo correcto de redundancia (es decir, corrección de errores) necesaria para transmitir los datos de manera eficiente y fiel a través de un canal ruidoso.

Esta división de la teoría de la codificación en compresión y transmisión se justifica por los teoremas de transmisión de información, o teoremas de separación fuente-canal que justifican el uso de bits como moneda universal para la información en muchos contextos. Sin embargo, estos teoremas solo son válidos en la situación en la que un usuario transmisor desea comunicarse con un usuario receptor. En escenarios con más de un transmisor (el canal de acceso múltiple), más de un receptor (el canal de transmisión ) o "ayudantes" intermediarios (el canal de retransmisión ), o redes más generales , es posible que la compresión seguida de la transmisión ya no sea óptima. La teoría de la información en red se refiere a estos modelos de comunicación de múltiples agentes.

Teoría de la fuente

Cualquier proceso que genere mensajes sucesivos puede considerarse una fuente de información. Una fuente sin memoria es aquella en la que cada mensaje es una variable aleatoria independiente distribuida de forma idéntica , mientras que las propiedades de ergodicidad y estacionariedad imponen restricciones menos restrictivas. Todas estas fuentes son estocásticas . Estos términos están bien estudiados por derecho propio fuera de la teoría de la información.

Índice

La tasa de información es la entropía promedio por símbolo. Para fuentes sin memoria, esto es simplemente la entropía de cada símbolo, mientras que, en el caso de un proceso estocástico estacionario, es

es decir, la entropía condicional de un símbolo dados todos los símbolos generados anteriormente. Para el caso más general de un proceso que no es necesariamente estacionario, la tasa promedio es

es decir, el límite de la entropía conjunta por símbolo. Para fuentes estacionarias, estas dos expresiones dan el mismo resultado.

La tasa de información se define como

Es común en la teoría de la información hablar de "tasa" o "entropía" de un idioma. Esto es apropiado, por ejemplo, cuando la fuente de información es la prosa inglesa. La tasa de una fuente de información está relacionada con su redundancia y qué tan bien se puede comprimir, el tema de la codificación de la fuente .

Capacidad de canal

Las comunicaciones a través de un canal son la principal motivación de la teoría de la información. Sin embargo, los canales a menudo no logran producir una reconstrucción exacta de una señal; el ruido, los períodos de silencio y otras formas de corrupción de la señal a menudo degradan la calidad.

Considere el proceso de comunicaciones a través de un canal discreto. A continuación se muestra un modelo simple del proceso:

Aquí X representa el espacio de mensajes transmitidos e Y el espacio de mensajes recibidos durante una unidad de tiempo en nuestro canal. Let p ( y | x ) sea la probabilidad condicional función de distribución de Y dado X . Consideraremos p ( y | x ) como una propiedad fija inherente de nuestro canal de comunicaciones (que representa la naturaleza del ruido de nuestro canal). Entonces, la distribución conjunta de X e Y está completamente determinada por nuestro canal y por nuestra elección de f ( x ) , la distribución marginal de los mensajes que elegimos enviar a través del canal. Bajo estas restricciones, nos gustaría maximizar la tasa de información, o la señal , podemos comunicarnos a través del canal. La medida adecuada para esto es la información mutua, y esta información mutua máxima se denomina capacidad del canal y viene dada por:

Esta capacidad tiene la siguiente propiedad relacionada con la comunicación a la tasa de información R (donde R generalmente son bits por símbolo). Para cualquier tasa de información R < C y error de codificación ε > 0, para N suficientemente grande , existe un código de longitud N y tasa ≥ R y un algoritmo de decodificación, de modo que la probabilidad máxima de error de bloque es ≤ ε ; es decir, siempre es posible transmitir con un error de bloque arbitrariamente pequeño. Además, para cualquier tasa R > C , es imposible transmitir con un error de bloque arbitrariamente pequeño.

La codificación de canales se ocupa de encontrar códigos casi óptimos que se puedan usar para transmitir datos a través de un canal ruidoso con un pequeño error de codificación a una velocidad cercana a la capacidad del canal.

Capacidad de modelos de canales particulares

  • Un canal de comunicaciones analógicas de tiempo continuo sujeto al ruido gaussiano ( ver el teorema de Shannon-Hartley) .
  • Un canal binario simétrico (BSC) con probabilidad de cruce p es una entrada binaria, canal de salida binaria que invierte el bit de entrada con probabilidad p . El BSC tiene una capacidad de 1 - H b ( p ) bits por uso de canal, donde H b es la función de entropía binaria al logaritmo de base 2:
Channel.svg simétrico binario
  • Un canal de borrado binario (BEC) con probabilidad de borrado p es un canal de salida ternario de entrada binaria. Las posibles salidas de canal son 0, 1 y un tercer símbolo 'e' llamado borrado. El borrado representa la pérdida completa de información sobre un bit de entrada. La capacidad del BEC es de 1 - p bits por uso de canal.
Canal de borrado binario.svg

Canales con memoria e información dirigida

En la práctica, muchos canales tienen memoria. Es decir, en el momento el canal viene dado por la probabilidad condicional . A menudo es más cómodo utilizar la notación y el canal . En tal caso, la capacidad viene dada por la tasa de información mutua cuando no hay retroalimentación disponible y la tasa de información dirigida en el caso de que haya retroalimentación o no (si no hay retroalimentación, la información dirigidaj es igual a la información mutua).

Aplicaciones a otros campos

Usos de inteligencia y aplicaciones de secreto

Los conceptos de la teoría de la información se aplican a la criptografía y el criptoanálisis. La unidad de información de Turing, la prohibición , se utilizó en el proyecto Ultra , rompiendo el código de máquina alemán Enigma y acelerando el final de la Segunda Guerra Mundial en Europa . El propio Shannon definió un concepto importante que ahora se llama distancia de unicidad . Sobre la base de la redundancia del texto sin formato , intenta proporcionar una cantidad mínima de texto cifrado necesario para garantizar una descifrabilidad única.

La teoría de la información nos lleva a creer que es mucho más difícil guardar secretos de lo que parece a primera vista. Un ataque de fuerza bruta puede romper sistemas basados ​​en algoritmos de clave asimétrica o en los métodos más comúnmente usados ​​de algoritmos de clave simétrica (a veces llamados algoritmos de clave secreta), como los cifrados en bloque . La seguridad de todos estos métodos proviene actualmente de la suposición de que ningún ataque conocido puede romperlos en una cantidad de tiempo práctica.

La seguridad teórica de la información se refiere a métodos como el pad de un solo uso que no son vulnerables a tales ataques de fuerza bruta. En tales casos, la información mutua condicional positiva entre el texto llano y el texto cifrado (condicionada a la clave ) puede garantizar una transmisión adecuada, mientras que la información mutua incondicional entre el texto llano y el texto cifrado permanece en cero, lo que resulta en comunicaciones absolutamente seguras. En otras palabras, un fisgón no podría mejorar su suposición del texto sin formato adquiriendo conocimiento del texto cifrado pero no de la clave. Sin embargo, como en cualquier otro sistema criptográfico, se debe tener cuidado de aplicar correctamente incluso los métodos teóricamente seguros de la información; el proyecto Venona pudo romper las plataformas de la Unión Soviética debido a la reutilización inadecuada de material clave.

Generación de números pseudoaleatorios

Los generadores de números pseudoaleatorios están ampliamente disponibles en bibliotecas de lenguaje de computadora y programas de aplicación. Casi universalmente, no son adecuados para el uso criptográfico, ya que no evaden la naturaleza determinista de los equipos y programas informáticos modernos. Una clase de generadores de números aleatorios mejorados se denomina generadores de números pseudoaleatorios criptográficamente seguros , pero incluso ellos requieren semillas aleatorias externas al software para funcionar según lo previsto. Estos se pueden obtener a través de extractores , si se hacen con cuidado. La medida de suficiente aleatoriedad en los extractores es la minientropía , un valor relacionado con la entropía de Shannon a través de la entropía de Rényi ; La entropía de Rényi también se utiliza para evaluar la aleatoriedad en sistemas criptográficos. Aunque relacionadas, las distinciones entre estas medidas significan que una variable aleatoria con alta entropía de Shannon no es necesariamente satisfactoria para su uso en un extractor y, por lo tanto, para usos de criptografía.

Exploración sísmica

Una de las primeras aplicaciones comerciales de la teoría de la información fue en el campo de la exploración sísmica de petróleo. El trabajo en este campo permitió eliminar y separar el ruido no deseado de la señal sísmica deseada. La teoría de la información y el procesamiento de señales digitales ofrecen una mejora importante de la resolución y la claridad de la imagen con respecto a los métodos analógicos anteriores.

Semiótica

Los semióticos Doede Nauta y Winfried Nöth consideraron que Charles Sanders Peirce había creado una teoría de la información en sus trabajos sobre semiótica. Nauta definió la teoría de la información semiótica como el estudio de "los procesos internos de codificación, filtrado y procesamiento de la información".

Los semióticos como Umberto Eco y Ferruccio Rossi-Landi han utilizado conceptos de la teoría de la información como la redundancia y el control de códigos para explicar la ideología como una forma de transmisión de mensajes mediante la cual una clase social dominante emite su mensaje mediante el uso de signos que exhiben un alto grado de redundancia tal que sólo se decodifica un mensaje entre una selección de los competidores.

Aplicaciones misceláneas

La teoría de la información también tiene aplicaciones en el juego y la teoría de la información , los agujeros negros y la bioinformática .

Ver también

Aplicaciones

Historia

Teoría

Conceptos

Referencias

El trabajo clásico

Otros artículos de revistas

  • JL Kelly, Jr., Princeton , "Una nueva interpretación de la tasa de información" , Revista técnica del sistema Bell , vol. 35, julio de 1956, págs. 917–26.
  • R. Landauer, IEEE.org , "La información es física" Proc. Taller de Física y Computación PhysComp'92 (IEEE Comp. Sci.Press, Los Alamitos, 1993) págs. 1–4.
  • Landauer, R. (1961). "Irreversibilidad y generación de calor en el proceso informático" (PDF) . IBM J. Res. Dev . 5 (3): 183-191. doi : 10.1147 / rd.53.0183 .
  • Timme, Nicholas; Alford, Wesley; Flecker, Benjamin; Beggs, John M. (2012). "Medidas de información multivariante: la perspectiva de un experimentalista". arXiv : 1111.6857 [ cs.IT ].

Libros de texto sobre teoría de la información

Otros libros

MOOC sobre teoría de la información

enlaces externos