Pantalla de tallo y hoja - Stem-and-leaf display

Un diagrama de tallo y hojas de los valores 20, 30, 32, 35, 41, 41, 43, 47, 48, 51, 53, 53, 54, 56, 57, 58, 58, 59, 60, 62, 64, 65, 65, 69, 71, 74, 77, 88 y 102

Un diagrama de tallos y hojas o diagrama de tallo y hojas es un dispositivo para la presentación de los datos cuantitativos en una gráfica de formato, similar a un histograma , para ayudar en la visualización de la forma de una distribución . Se desarrollaron a partir del trabajo de Arthur Bowley a principios del siglo XX y son herramientas útiles en el análisis de datos exploratorios . Stemplots se volvió más comúnmente utilizado en la década de 1980 después de la publicación del libro de John Tukey sobre análisis de datos exploratorios en 1977. La popularidad durante esos años se puede atribuir al uso de estilos tipográficos monoespaciados (de máquina de escribir) que permitieron que la tecnología informática de la época produjera fácilmente los gráficos. Las capacidades gráficas superiores de las computadoras modernas han hecho que estas técnicas se utilicen con menos frecuencia.

Este gráfico se ha implementado en Octave y R.

Un diagrama de tallo y hojas también se denomina diagrama de tallo , pero el último término a menudo se refiere a otro tipo de diagrama. Un diagrama de tallo simple puede referirse a trazar una matriz de valores y en un eje x común e identificar el valor x común con una línea vertical y los valores y individuales con símbolos en la línea.

A diferencia de los histogramas, las pantallas de tallo y hojas retienen los datos originales con al menos dos dígitos significativos y ordenan los datos, lo que facilita el paso a la inferencia basada en el orden y las estadísticas no paramétricas .


Construcción

Para construir una exhibición de tallo y hojas, las observaciones deben primero clasificarse en orden ascendente: esto se puede hacer más fácilmente si se trabaja a mano construyendo un borrador de la exhibición de tallo y hojas con las hojas sin clasificar, luego clasificando las hojas para producir el despliegue final de tallo y hoja. Aquí está el conjunto ordenado de valores de datos que se utilizarán en el siguiente ejemplo:

44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106

A continuación, se debe determinar qué representarán los tallos y qué representarán las hojas. Normalmente, la hoja contiene el último dígito del número y el tallo contiene todos los demás dígitos. En el caso de números muy grandes, los valores de los datos se pueden redondear a un valor posicional particular (como el lugar de las centenas) que se utilizará para las hojas. Los dígitos restantes a la izquierda del valor posicional redondeado se utilizan como raíz.

En este ejemplo, la hoja representa el lugar de las unidades y el tallo representará el resto del número (lugar de las decenas y más).

La visualización de tallo y hojas se dibuja con dos columnas separadas por una línea vertical. Los tallos se enumeran a la izquierda de la línea vertical. Es importante que cada tallo se enumere solo una vez y que no se omitan números, incluso si eso significa que algunos tallos no tienen hojas. Las hojas se enumeran en orden creciente en una fila a la derecha de cada tallo.

Es importante tener en cuenta que cuando hay un número repetido en los datos (como dos 72), entonces el gráfico debe reflejarlo (por lo que el gráfico se vería como 7 | 2 2 5 6 7 cuando tiene los números 72 72 75 76 77).

Clave:
Unidad de hoja: 1.0
Unidad de potencia: 10.0

Puede ser necesario redondear para crear una visualización de tallo y hojas. Con base en el siguiente conjunto de datos, se crearía el diagrama de tallo a continuación:

−23.678758, −12.45, −3.4, 4.43, 5.5, 5.678, 16.87, 24.7, 56.8

Para números negativos, se coloca un negativo delante de la unidad de raíz, que sigue siendo el valor X / 10. Los no enteros se redondean. Esto permitió que el diagrama de tallo y hojas conservara su forma, incluso para conjuntos de datos más complicados. Como en este ejemplo a continuación:

Clave:

Uso

Las pantallas de tallo y hojas son útiles para mostrar la densidad relativa y la forma de los datos, lo que brinda al lector una descripción general rápida de la distribución. Conservan (la mayoría de) los datos numéricos sin procesar, a menudo con perfecta integridad. También son útiles para resaltar valores atípicos y encontrar el modo . Sin embargo, las presentaciones de tallo y hojas solo son útiles para conjuntos de datos de tamaño moderado (alrededor de 15-150 puntos de datos). Con conjuntos de datos muy pequeños, una visualización de tallo y hojas puede ser de poca utilidad, ya que se requiere un número razonable de puntos de datos para establecer propiedades de distribución definitivas. Un diagrama de puntos puede ser más adecuado para tales datos. Con conjuntos de datos muy grandes, una visualización de tallo y hojas se volverá muy desordenada, ya que cada punto de datos debe representarse numéricamente. Un diagrama de caja o histograma puede resultar más apropiado a medida que aumenta el tamaño de los datos.

Notas

Referencias

  • Wild, C. y Seber, G. (2000) Encuentros casuales: un primer curso de análisis e inferencia de datos págs. 49–54 John Wiley and Sons. ISBN  0-471-32936-3
  • Elliott, Jane; Catherine Marsh (2008). Exploración de datos: una introducción al análisis de datos para científicos sociales (2ª ed.). Polity Press. ISBN 0-7456-2282-8.