Información mutua puntual - Pointwise mutual information
La información mutua puntual ( PMI ), o información mutua puntual , es una medida de asociación utilizada en la teoría de la información y la estadística . A diferencia de la información mutua (MI) que se basa en PMI, se refiere a eventos únicos, mientras que MI se refiere al promedio de todos los eventos posibles.
Definición
El PMI de un par de resultados x y y pertenecientes a variables aleatorias discretas X y Y cuantifica la discrepancia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo la independencia . Matemáticamente:
La información mutua (MI) de las variables aleatorias X e Y es el valor esperado del PMI (sobre todos los resultados posibles).
La medida es simétrica ( ). Puede tomar valores positivos o negativos, pero es cero si X e Y son independientes . Tenga en cuenta que aunque el PMI puede ser negativo o positivo, su resultado esperado sobre todos los eventos conjuntos (IM) es positivo. El PMI se maximiza cuando X e Y están perfectamente asociados (es decir, o ), dando los siguientes límites:
Finalmente, aumentará si es fijo pero disminuye.
Aquí hay un ejemplo para ilustrar:
X | y | p ( x , y ) |
---|---|---|
0 | 0 | 0,1 |
0 | 1 | 0,7 |
1 | 0 | 0,15 |
1 | 1 | 0,05 |
Usando esta tabla podemos marginar para obtener la siguiente tabla adicional para las distribuciones individuales:
p ( x ) | p ( y ) | |
---|---|---|
0 | 0,8 | 0,25 |
1 | 0,2 | 0,75 |
Con este ejemplo, podemos calcular cuatro valores para . Usando logaritmos de base 2:
pmi (x = 0; y = 0) | = | −1 |
pmi (x = 0; y = 1) | = | 0.222392 |
pmi (x = 1; y = 0) | = | 1.584963 |
pmi (x = 1; y = 1) | = | -1,584963 |
(Como referencia, la información mutua sería 0.2141709)
Similitudes con la información mutua
La información mutua puntual tiene muchas de las mismas relaciones que la información mutua. En particular,
¿Dónde está la autoinformación , o .
Información mutua puntual normalizada (npmi)
La información mutua puntual se puede normalizar entre [-1, + 1] dando como resultado -1 (en el límite) para que nunca ocurran juntos, 0 para independencia y +1 para co-ocurrencia completa .
¿Dónde está la autoinformación conjunta , que se estima como .
Variantes de PMI
Además del npmi mencionado anteriormente, PMI tiene muchas otras variantes interesantes. Un estudio comparativo de estas variantes se puede encontrar en
Regla de cadena para pmi
Al igual que la información mutua , la información mutua puntual sigue la regla de la cadena , es decir,
Esto se prueba fácilmente mediante:
Aplicaciones
En lingüística computacional , PMI se ha utilizado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, el recuento de ocurrencias y coincidencias de palabras en un corpus de texto se puede utilizar para aproximar las probabilidades y respectivamente. La siguiente tabla muestra los recuentos de pares de palabras que obtienen la mayor y la menor puntuación de PMI en los primeros 50 millones de palabras en Wikipedia (volcado de octubre de 2015) filtrando por 1000 o más co-ocurrencias. La frecuencia de cada recuento se puede obtener dividiendo su valor por 50 000 952. (Nota: el registro natural se utiliza para calcular los valores de PMI en este ejemplo, en lugar del registro base 2)
palabra 1 | palabra 2 | contar la palabra 1 | contar palabra 2 | recuento de co-ocurrencias | PMI |
---|---|---|---|---|---|
puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
Hong | Kong | 2438 | 2694 | 2205 | 9.72831972408 |
los | angeles | 3501 | 2808 | 2791 | 9.56067615065 |
carbón | dióxido | 4265 | 1353 | 1032 | 9.09852946116 |
premio | laureado | 5131 | 1676 | 1210 | 8.85870710982 |
san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
nobel | premio | 4098 | 5131 | 2498 | 8.68948811416 |
hielo | hockey | 5607 | 3002 | 1933 | 8.6555759741 |
estrella | emigrar | 8264 | 1594 | 1489 | 8.63974676575 |
carro | conductor | 5578 | 2749 | 1384 | 8.41470768304 |
eso | la | 283891 | 3293296 | 3347 | -1,72037278119 |
están | de | 234458 | 1761436 | 1019 | -2.09254205335 |
esto | la | 199882 | 3293296 | 1211 | -2.38612756961 |
es | de | 565679 | 1761436 | 1562 | -2,54614706831 |
y | de | 1375396 | 1761436 | 2949 | -2,79911817902 |
a | y | 984442 | 1375396 | 1457 | -2,92239510038 |
en | y | 1187652 | 1375396 | 1537 | -3.05660070757 |
a | y | 1025659 | 1375396 | 1286 | -3.08825363041 |
a | en | 1025659 | 1187652 | 1066 | -3.12911348956 |
de | y | 1761436 | 1375396 | 1190 | -3.70663100173 |
Los buenos pares de colocación tienen un PMI alto porque la probabilidad de co-ocurrencia es solo ligeramente menor que las probabilidades de ocurrencia de cada palabra. Por el contrario, un par de palabras cuyas probabilidades de ocurrencia son considerablemente más altas que su probabilidad de ocurrencia conjunta obtiene una pequeña puntuación de PMI.
Referencias
- Fano, RM (1961). "Capitulo 2". Transmisión de información: una teoría estadística de las comunicaciones . MIT Press, Cambridge, MA. ISBN 978-0262561693.
enlaces externos
- Demostración en Rensselaer MSR Server (valores de PMI normalizados entre 0 y 1)