Información mutua puntual - Pointwise mutual information

La información mutua puntual ( PMI ), o información mutua puntual , es una medida de asociación utilizada en la teoría de la información y la estadística . A diferencia de la información mutua (MI) que se basa en PMI, se refiere a eventos únicos, mientras que MI se refiere al promedio de todos los eventos posibles.

Definición

El PMI de un par de resultados x y y pertenecientes a variables aleatorias discretas X y Y cuantifica la discrepancia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo la independencia . Matemáticamente:

La información mutua (MI) de las variables aleatorias X e Y es el valor esperado del PMI (sobre todos los resultados posibles).

La medida es simétrica ( ). Puede tomar valores positivos o negativos, pero es cero si X e Y son independientes . Tenga en cuenta que aunque el PMI puede ser negativo o positivo, su resultado esperado sobre todos los eventos conjuntos (IM) es positivo. El PMI se maximiza cuando X e Y están perfectamente asociados (es decir, o ), dando los siguientes límites:

Finalmente, aumentará si es fijo pero disminuye.

Aquí hay un ejemplo para ilustrar:

X y p ( xy )
0 0 0,1
0 1 0,7
1 0 0,15
1 1 0,05

Usando esta tabla podemos marginar para obtener la siguiente tabla adicional para las distribuciones individuales:

p ( x ) p ( y )
0 0,8 0,25
1 0,2 0,75

Con este ejemplo, podemos calcular cuatro valores para . Usando logaritmos de base 2:

pmi (x = 0; y = 0) = −1
pmi (x = 0; y = 1) = 0.222392
pmi (x = 1; y = 0) = 1.584963
pmi (x = 1; y = 1) = -1,584963

(Como referencia, la información mutua sería 0.2141709)

Similitudes con la información mutua

La información mutua puntual tiene muchas de las mismas relaciones que la información mutua. En particular,

¿Dónde está la autoinformación , o .

Información mutua puntual normalizada (npmi)

La información mutua puntual se puede normalizar entre [-1, + 1] dando como resultado -1 (en el límite) para que nunca ocurran juntos, 0 para independencia y +1 para co-ocurrencia completa .

¿Dónde está la autoinformación conjunta , que se estima como .

Variantes de PMI

Además del npmi mencionado anteriormente, PMI tiene muchas otras variantes interesantes. Un estudio comparativo de estas variantes se puede encontrar en

Regla de cadena para pmi

Al igual que la información mutua , la información mutua puntual sigue la regla de la cadena , es decir,

Esto se prueba fácilmente mediante:

Aplicaciones

En lingüística computacional , PMI se ha utilizado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, el recuento de ocurrencias y coincidencias de palabras en un corpus de texto se puede utilizar para aproximar las probabilidades y respectivamente. La siguiente tabla muestra los recuentos de pares de palabras que obtienen la mayor y la menor puntuación de PMI en los primeros 50 millones de palabras en Wikipedia (volcado de octubre de 2015) filtrando por 1000 o más co-ocurrencias. La frecuencia de cada recuento se puede obtener dividiendo su valor por 50 000 952. (Nota: el registro natural se utiliza para calcular los valores de PMI en este ejemplo, en lugar del registro base 2)

palabra 1 palabra 2 contar la palabra 1 contar palabra 2 recuento de co-ocurrencias PMI
puerto rico 1938 1311 1159 10.0349081703
Hong Kong 2438 2694 2205 9.72831972408
los angeles 3501 2808 2791 9.56067615065
carbón dióxido 4265 1353 1032 9.09852946116
premio laureado 5131 1676 1210 8.85870710982
san francisco 5237 2477 1779 8.83305176711
nobel premio 4098 5131 2498 8.68948811416
hielo hockey 5607 3002 1933 8.6555759741
estrella emigrar 8264 1594 1489 8.63974676575
carro conductor 5578 2749 1384 8.41470768304
eso la 283891 3293296 3347 -1,72037278119
están de 234458 1761436 1019 -2.09254205335
esto la 199882 3293296 1211 -2.38612756961
es de 565679 1761436 1562 -2,54614706831
y de 1375396 1761436 2949 -2,79911817902
a y 984442 1375396 1457 -2,92239510038
en y 1187652 1375396 1537 -3.05660070757
a y 1025659 1375396 1286 -3.08825363041
a en 1025659 1187652 1066 -3.12911348956
de y 1761436 1375396 1190 -3.70663100173

Los buenos pares de colocación tienen un PMI alto porque la probabilidad de co-ocurrencia es solo ligeramente menor que las probabilidades de ocurrencia de cada palabra. Por el contrario, un par de palabras cuyas probabilidades de ocurrencia son considerablemente más altas que su probabilidad de ocurrencia conjunta obtiene una pequeña puntuación de PMI.

Referencias

enlaces externos