Distribución multinomial - Multinomial distribution

Multinomial
Parámetros número de ensayos ( entero ) probabilidades de eventos ( )
Apoyo
PMF
Significar
Diferencia
Entropía
MGF
CF dónde
PGF

En la teoría de la probabilidad , la distribución multinomial es una generalización de la distribución binomial . Por ejemplo, modela la probabilidad de conteos para cada lado de un dado de lados k que se lanza n veces. Para n ensayos independientes , cada uno de los cuales conduce a un éxito para exactamente una de las k categorías, y cada categoría tiene una probabilidad de éxito fija dada, la distribución multinomial da la probabilidad de cualquier combinación particular de números de éxitos para las diversas categorías.

Cuando k es 2 y n es 1, la distribución multinomial es la distribución de Bernoulli . Cuando k es 2 y n es mayor que 1, es la distribución binomial . Cuando k es mayor que 2 y n es 1, es la distribución categórica .

La distribución de Bernoulli modela el resultado de un único ensayo de Bernoulli . En otras palabras, modela si lanzar una moneda (posiblemente sesgada ) una vez resultará en un éxito (obtener una cara) o un fracaso (obtener una cruz). La distribución binomial generaliza esto al número de caras al realizar n lanzamientos independientes (ensayos de Bernoulli) de la misma moneda. La distribución multinomial modela el resultado de n experimentos, donde el resultado de cada ensayo tiene una distribución categórica , como lanzar un dado de lados k n veces.

Sea k un número finito fijo. Matemáticamente, tenemos k posibles resultados mutuamente excluyentes, con las correspondientes probabilidades p 1 , ..., p k , y n ensayos independientes. Dado que los k resultados son mutuamente excluyentes y uno debe ocurrir, tenemos p i  ≥ 0 para i  = 1, ...,  k y . Entonces, si las variables aleatorias X i indican el número de veces que se observa el resultado número i en los n ensayos, el vector X  = ( X 1 , ...,  X k ) sigue una distribución multinomial con parámetros n y p , donde p  = ( p 1 , ...,  p k ). Si bien los ensayos son independientes, sus resultados X son dependientes porque deben sumarse an.

Definiciones

Función de probabilidad

Supongamos que uno hace un experimento de extraer n bolas de k colores diferentes de una bolsa, reemplazando las bolas extraídas después de cada sorteo. Las bolas del mismo color son equivalentes. Denote la variable que es el número de bolas extraídas de color i ( i = 1, ..., k ) como X i , y denote como p i la probabilidad de que una extracción dada sea de color i . La función de masa de probabilidad de esta distribución multinomial es:

para enteros no negativos x 1 , ..., x k .

La función de masa de probabilidad se puede expresar usando la función gamma como:

Esta forma muestra su parecido con la distribución de Dirichlet , que es su anterior conjugado .


Ejemplo

Suponga que en una elección a tres bandas para un país grande, el candidato A recibió el 20% de los votos, el candidato B recibió el 30% de los votos y el candidato C recibió el 50% de los votos. Si se seleccionan seis votantes al azar, ¿cuál es la probabilidad de que haya exactamente un partidario del candidato A, dos partidarios del candidato B y tres partidarios del candidato C en la muestra?

Nota: Dado que asumimos que la población votante es grande, es razonable y permisible pensar que las probabilidades no cambian una vez que se selecciona un votante para la muestra. Técnicamente hablando, esto es un muestreo sin reemplazo, por lo que la distribución correcta es la distribución hipergeométrica multivariante , pero las distribuciones convergen a medida que la población crece.

Propiedades

Valor esperado y varianza

El número esperado de veces que se observó el resultado i en n ensayos es

La matriz de covarianza es la siguiente. Cada entrada diagonal es la varianza de una variable aleatoria distribuida binomialmente y, por lo tanto, es

Las entradas fuera de la diagonal son las covarianzas :

para i , j distinto.

Todas las covarianzas son negativas porque para n fijo , un aumento en un componente de un vector multinomial requiere una disminución en otro componente.

Cuando estas expresiones se combinan en una matriz con el elemento i, j , el resultado es una matriz de covarianza semidefinida positiva k × k de rango k  - 1. En el caso especial donde k  =  n y donde p i son todos iguales, la covarianza matrix es la matriz de centrado .

Las entradas de la matriz de correlación correspondiente son

Tenga en cuenta que el tamaño de la muestra se elimina de esta expresión.

Cada uno de los k componentes por separado tiene una distribución binomial con parámetros n y p i , para el valor apropiado del subíndice i .

El soporte de la distribución multinomial es el conjunto

Su número de elementos es

Notación matricial

En notación matricial,

y

con p T = la transposición del vector fila del vector columna p .


Visualización

Como rebanadas del triángulo de Pascal generalizado

Así como se puede interpretar la distribución binomial como cortes unidimensionales (normalizados) (1D) del triángulo de Pascal , también se puede interpretar la distribución multinomial como cortes 2D (triangulares) de la pirámide de Pascal , o 3D / 4D / + (pirámide- forma) rebanadas de análogos de dimensiones superiores del triángulo de Pascal. Esto revela una interpretación del rango de la distribución: "pirámides" equiláteras discretizadas en una dimensión arbitraria, es decir, un simplex con una cuadrícula.

Como coeficientes polinomiales

De manera similar, al igual que se puede interpretar la distribución binomial como los coeficientes polinomiales de cuando se expande, se puede interpretar la distribución multinomial como los coeficientes de cuando se expande. (Tenga en cuenta que al igual que la distribución binomial, los coeficientes deben sumar 1.) Este es el origen del nombre " distribución multinomial ".

Distribuciones relacionadas

En algunos campos, como el procesamiento del lenguaje natural , las distribuciones categóricas y multinomiales son sinónimos y es común hablar de una distribución multinomial cuando en realidad se trata de una distribución categórica . Esto se debe al hecho de que a veces es conveniente expresar el resultado de una distribución categórica como un vector "1 de K" (un vector con un elemento que contiene un 1 y todos los demás elementos que contienen un 0) en lugar de un número entero. en el rango ; de esta forma, una distribución categórica equivale a una distribución multinomial en un solo ensayo.


Inferencia estadística

Pruebas de equivalencia para distribuciones multinomiales

El objetivo de las pruebas de equivalencia es establecer la concordancia entre una distribución multinomial teórica y las frecuencias de conteo observadas. La distribución teórica puede ser una distribución multinomial completamente especificada o una familia paramétrica de distribuciones multinomiales.

Vamos a denotar una distribución multinomial teórica y dejar que sea una verdadera distribución subyacente. Las distribuciones y se consideran equivalentes si se trata de una distancia y un parámetro de tolerancia . El problema de la prueba de equivalencia es versus . Se desconoce la verdadera distribución subyacente . En cambio, se observan las frecuencias de conteo , donde es un tamaño de muestra. Una prueba de equivalencia utiliza para rechazar . Si se puede rechazar, la equivalencia entre y se muestra a un nivel de significancia dado. La prueba de equivalencia para la distancia euclidiana se puede encontrar en el libro de texto de Wellek (2010). La prueba de equivalencia para la distancia de variación total se desarrolla en Ostrovski (2017). La prueba de equivalencia exacta para la distancia acumulada específica se propone en Frey (2009).

La distancia entre la verdadera distribución subyacente y una familia de distribuciones multinomiales está definida por . Entonces, el problema de la prueba de equivalencia viene dado por y . La distancia generalmente se calcula mediante optimización numérica. Las pruebas para este caso se han desarrollado recientemente en Ostrovski (2018).


Métodos computacionales

Muestreo de una distribución multinomial

Primero, reordene los parámetros de manera que estén ordenados en orden descendente (esto es solo para acelerar el cálculo y no es estrictamente necesario). Ahora, para cada prueba, dibuje una variable auxiliar X de una distribución uniforme (0, 1). El resultado resultante es el componente

{ X j = 1, X k = 0 para k  ≠  j } es una observación de la distribución multinomial con y n  = 1. Una suma de repeticiones independientes de este experimento es una observación de una distribución multinomial con n igual al número de tales repeticiones.

Para simular a partir de una distribución multinomial

Se pueden utilizar varios métodos para simular a partir de una distribución multinomial. Una solución muy simple es usar un generador de números pseudoaleatorios uniforme en (0,1). Primero, dividimos el intervalo (0,1) en  k subintervalos iguales en longitud a las probabilidades de las k categorías. Luego, generamos n números pseudoaleatorios independientes para determinar en cuál de los k intervalos ocurren y contamos el número de ocurrencias en cada intervalo.

Ejemplo

Si tenemos:

Categorías 1 2 3 4 5 6
Probabilidades 0,15 0,20 0,30 0,16 0,12 0,07
Límites superiores de subintervalos 0,15 0,35 0,65 0,81 0,93 1,00

Luego, con un software como Excel, podemos usar la siguiente receta:

Células : Ai Bi Ci ... Soldado americano
Fórmulas: Rand () = Si ($ Ai <0,15; 1; 0) = Si (Y ($ Ai> = 0.15; $ Ai <0.35); 1; 0) ... = Si ($ Ai> = 0.93; 1; 0)

Después de eso, usaremos funciones como SumIf para acumular los resultados observados por categoría y calcular la matriz de covarianza estimada para cada muestra simulada.

Otra forma es utilizar un generador de números aleatorios discretos. En ese caso, las categorías deben etiquetarse o volverse a etiquetar con valores numéricos.

En los dos casos, el resultado es una distribución multinomial con k categorías. Esto es equivalente, con una distribución aleatoria continua, a simular k distribuciones normales estandarizadas independientes, o una distribución multinormal N (0, I) que tiene k componentes idénticamente distribuidos y estadísticamente independientes.

Dado que los recuentos de todas las categorías deben sumar el número de ensayos, los recuentos de las categorías siempre están correlacionados negativamente.

Referencias

Citas

Fuentes