Longitud mínima del mensaje - Minimum message length
La longitud mínima del mensaje (MML) es un método teórico de la información bayesiano para la comparación y selección de modelos estadísticos. Proporciona una reformulación de la teoría de la información formal de la navaja de Occam : incluso cuando los modelos son iguales en su medida de precisión de ajuste a los datos observados, es más probable que el que genera la explicación más concisa de los datos sea correcto (donde la explicación consiste en la declaración del modelo, seguida de la codificación sin pérdidas de los datos utilizando el modelo indicado). MML fue inventado por Chris Wallace , que apareció por primera vez en el artículo seminal "Una medida de información para la clasificación". MML está pensado no solo como una construcción teórica, sino como una técnica que se puede implementar en la práctica. Se diferencia del concepto relacionado de complejidad de Kolmogorov en que no requiere el uso de un lenguaje completo de Turing para modelar datos.
Definición
Shannon 's una teoría matemática de Comunicación (1948) establece que en un código óptimo, la longitud del mensaje (en binario) de un evento , donde ha de probabilidad , está dada por .
El teorema de Bayes establece que la probabilidad de una hipótesis (variable) dada la evidencia fija es proporcional a , que, según la definición de probabilidad condicional , es igual a . Queremos el modelo (hipótesis) con la mayor probabilidad posterior . Supongamos que codificamos un mensaje que representa (describe) tanto el modelo como los datos de forma conjunta. Dado que , el modelo más probable tendrá el mensaje más corto. El mensaje se rompe en dos partes: . La primera parte codifica el modelo en sí. La segunda parte contiene información (por ejemplo, valores de parámetros o condiciones iniciales, etc.) que, cuando es procesada por el modelo, genera los datos observados.
MML intercambia de forma natural y precisa la complejidad del modelo por la bondad del ajuste. Un modelo más complicado tarda más en expresarse (primera parte más larga) pero probablemente se ajusta mejor a los datos (segunda parte más corta). Por lo tanto, una métrica MML no elegirá un modelo complicado a menos que ese modelo se pague por sí mismo.
Parámetros de valor continuo
Una razón por la que un modelo podría ser más largo sería simplemente porque sus diversos parámetros se establecen con mayor precisión, lo que requiere la transmisión de más dígitos. Gran parte del poder de MML se deriva de su manejo de la precisión con la que se establecen los parámetros en un modelo y de una variedad de aproximaciones que lo hacen factible en la práctica. Esto le permite comparar de manera útil, digamos, un modelo con muchos parámetros establecidos de manera imprecisa con un modelo con menos parámetros establecidos con mayor precisión.
Características clave de MML
- MML se puede utilizar para comparar modelos de diferente estructura. Por ejemplo, su primera aplicación fue encontrar modelos de mezcla con el número óptimo de clases. Agregar clases adicionales a un modelo de mezcla siempre permitirá que los datos se ajusten con mayor precisión, pero de acuerdo con MML, esto debe sopesarse con los bits adicionales necesarios para codificar los parámetros que definen esas clases.
- MML es un método de comparación de modelos bayesianos . Le da a cada modelo una puntuación.
- MML es invariante en escala y estadísticamente invariante. A diferencia de muchos métodos de selección bayesianos, a MML no le importa si cambia de medición de longitud a volumen o de coordenadas cartesianas a coordenadas polares.
- MML es estadísticamente consistente. Para problemas como el problema de Neyman-Scott (1948) o el análisis factorial donde la cantidad de datos por parámetro está acotada arriba, MML puede estimar todos los parámetros con consistencia estadística .
- MML explica la precisión de la medición. Utiliza la información de Fisher (en la aproximación de Wallace-Freeman 1987, u otros hipervolúmenes en otras aproximaciones ) para discretizar de manera óptima los parámetros continuos. Por lo tanto, el posterior es siempre una probabilidad, no una densidad de probabilidad.
- MML se ha utilizado desde 1968. Se han desarrollado esquemas de codificación MML para varias distribuciones y muchos tipos de aprendices de máquina, incluida la clasificación no supervisada, árboles de decisión y gráficos, secuencias de ADN, redes bayesianas , redes neuronales (solo una capa hasta ahora), compresión de imágenes, segmentación de imágenes y funciones, etc.
Ver también
- Probabilidad algorítmica
- Teoría algorítmica de la información
- Inducción gramatical
- Inferencia inductiva
- Probabilidad inductiva
- Complejidad de Kolmogorov: complejidad absoluta (dentro de una constante, dependiendo de la elección particular de Universal Turing Machine ); MML es típicamente una aproximación computable (ver)
- Longitud mínima de la descripción : una alternativa con una motivación posiblemente diferente (no bayesiana), desarrollada 10 años después de MML.
- La navaja de Occam
Referencias
enlaces externos
Publicación original:
- Wallace; Boulton (agosto de 1968). "Una medida de información para la clasificación" . Revista informática . 11 (2): 185-194. doi : 10.1093 / comjnl / 11.2.185 .
Libros:
- Wallace, CS (mayo de 2005). Inferencia estadística e inductiva por longitud mínima de mensaje . Ciencias de la información y estadística. Springer-Verlag. ISBN 978-0-387-23795-4 . CS1 maint: parámetro desalentado ( enlace )
- Allison, L. (2018). Codificación de la navaja de Ockham . Saltador. doi : 10.1007 / 978-3-319-76433-7 . ISBN 978-3319764320 . S2CID 19136282 . , sobre la implementación de MML y código fuente .
Enlaces relacionados:
- Enlaces a todas las publicaciones conocidas de Chris Wallace .
- Una base de datos de búsqueda de las publicaciones de Chris Wallace .
- Wallace, CS; Dowe, DL (1999). "Longitud mínima del mensaje y complejidad de Kolmogorov". Revista informática . 42 (4): 270-283. CiteSeerX 10.1.1.17.321 . doi : 10.1093 / comjnl / 42.4.270 .
- "Número especial sobre la complejidad de Kolmogorov" . Revista informática . 42 (4). 1999.
- Dowe, DL; Wallace, CS (1997). Resolución del problema de Neyman-Scott mediante la longitud mínima del mensaje . 28º Simposio sobre la interfaz, Sydney, Australia. Ciencias de la Computación y Estadística . 28 . págs. 614–618.
- Historia de MML, última charla de CSW .
- Needham, S .; Dowe, D. (2001). Longitud del mensaje como una navaja eficaz de Ockham en la inducción del árbol de decisión (PDF) . Proc. VIII Taller Internacional de IA y Estadística . págs. 253–260. (Muestra cómo funciona bien la navaja de Occam cuando se interpreta como MML).
- Allison, L. (enero de 2005). "Modelos de aprendizaje automático y minería de datos en programación funcional". Revista de programación funcional . 15 (1): 15–32. doi : 10.1017 / S0956796804005301 . S2CID 5218889 . ( Código MML, FP y Haskell ).
- Comley, JW; Dowe, DL (abril de 2005). "Capítulo 11: Longitud mínima de mensaje, MDL y redes bayesianas generalizadas con lenguajes asimétricos" . En Grunwald, P .; Pitt, MA; Myung, IJ (eds.). Avances en Longitud Mínima de Descripción: Teoría y Aplicaciones . MIT Press. págs. 265-294. ISBN 978-0-262-07262-5 .
- Comley, Joshua W .; Dowe, DL (5 a 8 de junio de 2003). Redes bayesianas generales y lenguajes asimétricos . Proc. Segunda Conferencia Internacional de Hawai sobre Estadísticas y Campos Relacionados. , .pdf . Comley y Dowe ( 2003 , 2005 ) son los dos primeros artículos sobre redes bayesianas MML que utilizan parámetros valorados tanto discretos como continuos.
- Dowe, David L. (2010). "MML, modelos gráficos de red bayesiana híbrida, consistencia estadística, invariancia y unicidad" (PDF) . Manual de Filosofía de la Ciencia (Volumen 7: Manual de Filosofía de la Estadística) . Elsevier. págs. 901–982. ISBN 978-0-444-51862-0 .
- Longitud mínima de mensaje (MML) , introducción MML de LA, (MML alt.) .
- Longitud mínima de mensaje (MML), investigadores y enlaces .
- "Otro sitio web de investigación de MML" . Archivado desde el original el 12 de abril de 2017.
- Página Snob para modelado de mezclas MML .
- MITECS : Chris Wallace escribió una entrada sobre MML para MITECS. (Requiere cuenta)
- mikko.ps : breves diapositivas introductorias de Mikko Koivisto en Helsinki
- Método de selección del modelo según el criterio de información de Akaike ( AIC ) y comparación con MML: Dowe, DL; Gardner, S .; Oppy, G. (diciembre de 2007). "Bayes not Bust! Por qué la simplicidad no es un problema para los bayesianos". Br. J. Philos. Sci . 58 (4): 709–754. doi : 10.1093 / bjps / axm033 .