Longitud mínima del mensaje - Minimum message length

La longitud mínima del mensaje (MML) es un método teórico de la información bayesiano para la comparación y selección de modelos estadísticos. Proporciona una reformulación de la teoría de la información formal de la navaja de Occam : incluso cuando los modelos son iguales en su medida de precisión de ajuste a los datos observados, es más probable que el que genera la explicación más concisa de los datos sea correcto (donde la explicación consiste en la declaración del modelo, seguida de la codificación sin pérdidas de los datos utilizando el modelo indicado). MML fue inventado por Chris Wallace , que apareció por primera vez en el artículo seminal "Una medida de información para la clasificación". MML está pensado no solo como una construcción teórica, sino como una técnica que se puede implementar en la práctica. Se diferencia del concepto relacionado de complejidad de Kolmogorov en que no requiere el uso de un lenguaje completo de Turing para modelar datos.

Definición

Shannon 's una teoría matemática de Comunicación (1948) establece que en un código óptimo, la longitud del mensaje (en binario) de un evento , donde ha de probabilidad , está dada por .

El teorema de Bayes establece que la probabilidad de una hipótesis (variable) dada la evidencia fija es proporcional a , que, según la definición de probabilidad condicional , es igual a . Queremos el modelo (hipótesis) con la mayor probabilidad posterior . Supongamos que codificamos un mensaje que representa (describe) tanto el modelo como los datos de forma conjunta. Dado que , el modelo más probable tendrá el mensaje más corto. El mensaje se rompe en dos partes: . La primera parte codifica el modelo en sí. La segunda parte contiene información (por ejemplo, valores de parámetros o condiciones iniciales, etc.) que, cuando es procesada por el modelo, genera los datos observados.

MML intercambia de forma natural y precisa la complejidad del modelo por la bondad del ajuste. Un modelo más complicado tarda más en expresarse (primera parte más larga) pero probablemente se ajusta mejor a los datos (segunda parte más corta). Por lo tanto, una métrica MML no elegirá un modelo complicado a menos que ese modelo se pague por sí mismo.

Parámetros de valor continuo

Una razón por la que un modelo podría ser más largo sería simplemente porque sus diversos parámetros se establecen con mayor precisión, lo que requiere la transmisión de más dígitos. Gran parte del poder de MML se deriva de su manejo de la precisión con la que se establecen los parámetros en un modelo y de una variedad de aproximaciones que lo hacen factible en la práctica. Esto le permite comparar de manera útil, digamos, un modelo con muchos parámetros establecidos de manera imprecisa con un modelo con menos parámetros establecidos con mayor precisión.

Características clave de MML

  • MML se puede utilizar para comparar modelos de diferente estructura. Por ejemplo, su primera aplicación fue encontrar modelos de mezcla con el número óptimo de clases. Agregar clases adicionales a un modelo de mezcla siempre permitirá que los datos se ajusten con mayor precisión, pero de acuerdo con MML, esto debe sopesarse con los bits adicionales necesarios para codificar los parámetros que definen esas clases.
  • MML es un método de comparación de modelos bayesianos . Le da a cada modelo una puntuación.
  • MML es invariante en escala y estadísticamente invariante. A diferencia de muchos métodos de selección bayesianos, a MML no le importa si cambia de medición de longitud a volumen o de coordenadas cartesianas a coordenadas polares.
  • MML es estadísticamente consistente. Para problemas como el problema de Neyman-Scott (1948) o el análisis factorial donde la cantidad de datos por parámetro está acotada arriba, MML puede estimar todos los parámetros con consistencia estadística .
  • MML explica la precisión de la medición. Utiliza la información de Fisher (en la aproximación de Wallace-Freeman 1987, u otros hipervolúmenes en otras aproximaciones ) para discretizar de manera óptima los parámetros continuos. Por lo tanto, el posterior es siempre una probabilidad, no una densidad de probabilidad.
  • MML se ha utilizado desde 1968. Se han desarrollado esquemas de codificación MML para varias distribuciones y muchos tipos de aprendices de máquina, incluida la clasificación no supervisada, árboles de decisión y gráficos, secuencias de ADN, redes bayesianas , redes neuronales (solo una capa hasta ahora), compresión de imágenes, segmentación de imágenes y funciones, etc.

Ver también

Referencias

enlaces externos

Publicación original:

Libros:

Enlaces relacionados: