Parcela de mosaico - Mosaic plot

Trama de mosaico que muestra la distribución transversal a lo largo del tiempo de diferentes temas musicales en la lista de The Guardian de "1000 canciones para escuchar antes de morir".

Un diagrama de mosaico (también conocido como diagrama de Marimekko ) es un método gráfico para visualizar datos de dos o más variables cualitativas. Es la extensión multidimensional de spineplots, que muestran gráficamente la misma información para una sola variable. Ofrece una visión general de los datos y permite reconocer relaciones entre diferentes variables. Por ejemplo, la independencia se muestra cuando todos los cuadros de las categorías tienen las mismas áreas. Los gráficos de mosaico fueron introducidos por Hartigan y Kleiner en 1981 y ampliado por Friendly en 1994. Los gráficos de mosaico también se denominan gráficos de Mekko debido a su parecido con un gráfico de Marimekko .

Al igual que con los gráficos de barras y los gráficos de columna, el área de los mosaicos, también conocida como tamaño del contenedor, es proporcional al número de observaciones dentro de esa categoría.

Ejemplo

Un ejemplo clásico de tramas de mosaico utiliza datos de los pasajeros del Titanic . Los datos utilizados para este ejemplo tienen 2201 observaciones y 3 variables. Las variables son:

  • el género de la persona (hombre / mujer)
  • la clase (1ra, 2da y 3ra clase, o tripulación)
  • ¿sobrevivió esta persona al hundimiento (sí / no)?

Las observaciones se compilaron en la siguiente tabla:

Género Sobrevivió Primera clase 2da clase 3ra clase Tripulación
Masculino No 118 154 422 670
62 25 88 192
Mujer No 4 13 106 3
141 93 90 20

Construcción de parcelas de mosaico

Pedido Variable Eje
1. Género Vertical
2. Clase Horizontal
3. Sobrevivió Vertical

Las variables categóricas se ordenan primero. Luego, cada variable se asigna a un eje. En la tabla de la derecha, se presenta la secuencia y clasificación de este conjunto de datos. Otro orden resultará en un diagrama de mosaico diferente, es decir, el orden de las variables es significativo como para todos los diagramas multivariados.

En el borde izquierdo de la primera variable, primero graficamos "Género", lo que significa que dividimos los datos verticalmente en dos bloques: el bloque inferior corresponde a las mujeres, mientras que el superior (mucho más grande) a los hombres. Uno ve inmediatamente que aproximadamente una cuarta parte de los pasajeros eran mujeres y las tres cuartas partes restantes hombres.

Luego, se aplica la segunda variable "Clase" al borde superior. Por tanto, las cuatro columnas verticales marcan los cuatro valores de esa variable (1º, 2º, 3º y tripulación). Estas columnas son de grosor variable, porque el ancho de la columna indica la proporción relativa del valor correspondiente en la población. La tripulación representa claramente el grupo masculino más grande, mientras que los pasajeros de tercera clase son el grupo femenino más numeroso. También se considera que el número de tripulantes femeninas ha sido marginal.

Finalmente se aplica la última variable ("Sobrevivido"), esta vez a lo largo del borde izquierdo con el resultado resaltado con sombra: los rectángulos de color gris oscuro representan a las personas que no sobrevivieron al desastre, los de color gris claro a las personas que sí. Se ve inmediatamente que las mujeres de la primera clase tienen la mayor probabilidad de supervivencia. Se considera que la probabilidad de supervivencia de las mujeres es mayor que la de los hombres (marginados en todas las clases). De manera similar, una marginación sobre el género identifica a los pasajeros de primera clase como los que tienen más probabilidades de sobrevivir. En general, aproximadamente 1/3 de todas las personas sobrevivieron (proporción de áreas de color gris claro).

Mosaic titanic independent.png

Propiedades

  • Las variables mostradas son escalas categóricas u ordinales.
  • La trama es de al menos dos variables. No existe un límite superior, pero demasiadas variables pueden resultar confusas en forma gráfica.
  • El número de observaciones no está limitado, pero no se lee en la imagen.
  • Las superficies de los campos rectangulares que están disponibles para una combinación de características son proporcionales al número de observaciones que tienen esta combinación de características.
  • A diferencia de, por ejemplo, la gráfica de caja o la gráfica QQ , no es posible que la gráfica de mosaico represente un intervalo de confianza. Por tanto, el significado de las diferentes frecuencias de los distintos valores característicos no se puede observar visualmente.

Ver también

Referencias

Otras lecturas

  • John Hartigan, Beat Kleiner: Mosaicos para tablas de contingencia . En: Ciencias de la Computación y Estadística: Actas del XIII Simposio sobre la Interfaz . 1981, S. 268-273.