15/6/19

BOXPLOT – DIAGRAMA DE CAJAS


Concepto

El diagrama de cajas y bigotes (boxplots o box and whiskers), es un gráfico utilizado para representar de manera simplificada y visual la distribución de puntuaciones dentro de una variable cuantitativa. Permite visualizar los datos a través de cuartiles, distribución, grado de asimetría, valores extremos, posición de la mediana, etc., para evaluar y comparar la forma, la tendencia central y la variabilidad de las distribuciones de la muestra así como para buscar valores atípicos o casos extremos de la variable. Además es útil para comparar distribuciones entre diferentes grupos o categorías.


Historia

El diagrama de Caja y bigotes, fue publicado en el libro “Exploratory Data Analysis” de John Tuckey (1977), basado en las primeras formulaciones del estudio de las barras de rango de Kenneth W. Haemer (1948) y Mary Eleanor Spear (1952). Actualmente, el diagrama de caja es uno de los gráficos estadísticos más utilizados gracias a su practicidad y fácil entendimiento.


Partes del Boxplot



1. Rango Intercuartil (IQR) – Box. Es la diferencia o la distancia que hay entre los valores del Cuartil 1 (Q1) y del Cuartil 3 (Q3).

2. Bigotes – whisker. Líneas verticales que se extienden desde la caja hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el IQR.

3. Mediana (Me). Coincide con el segundo cuartil, divide a la distribución en dos partes iguales. De este modo, el 50% de las observaciones están por debajo de la mediana y 50% está por encima. 

4. Primer cuartil. (Q1). Por debajo de este valor se encuentra como máximo el 25%

5. Tercer cuartil (Q3). Por debajo de este valor se encentran como máximo el 75%

6. Límite inferior. Es el extremo inferior del bigote

7. Límite superior. Es el extremo superior del bigote

8. Valores atípicos - Outliers. Son valores que se encuentran por debajo del límite inferior y por encima de límite superior, son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos. Están apartadas del cuerpo principal de datos, representan efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro. Los valores atípicos pueden ser leves (°) o extremos (*).

9. Media. Es el promedio, aunque no forma parte del boxplot, es considerada para dar una idea del puntaje general.


Pasos para la construcción del diagrama de caja

1. Ordenar los datos.

2. Calcular los tres cuartiles (Q1, Q2 y Q3), dibujar la caja entre el primer y tercer cuartil. 
- Cuartil 1 (Q1): valor X a partir del que se tiene 25% de los datos por debajo y el 75% por arriba. 
- Cuartil 2 (Q2) o Mediana (Me): valor X a partir del que se tiene 50% de los datos están por debajo y por arriba. 
- Cuartil 3 (Q3): valor X a partir del que se tiene 75% de los datos por debajo y el 25% por arriba. 
3. Dibujar una línea representando a la mediana o segundo cuartil Q2

4. Calcular el rango intercuartil. 

5. Calcular los límites admisibles inferior y superior (LI y LS). Dibujar los bigotes que es la extensión entre los límites Superior e Inferior y el Cuartil 1 y Cuartil 2, respectivamente.

6. Identificar los valores atípicos leves y calcular los valores atípicos extremos
- Los valores atípicos leves menores (x < LI) están entre el límite inferior y límite atípico inferior extremo y los valores atípicos leves mayores están entre el límite superior (x > LS) y límite atípico superior extremo. Son representados por puntos o círculos (°)
- Los valores atípicos extremos menores son inferiores al límite atípico inferior extremo (x < LIx) y los valores atípicos extremos mayores son superiores al límite atípico superior extremo (x > LIx). Son representados por asteriscos (*)


Correspondencia entre el gráfico de caja y la curva normal



Distribución simétrica

En el siguiente gráfico se observa la correspondencia entre la simetría de la distribución de los datos y el gráfico de cajas. Si los bigotes son cortos y simétricos, diremos que la distribución es simétrica.



Comparación entre categorías

El diagrama de caja permite realizar la comparación entre categorías de una variable, por ejemplo se tienen a continuación dos ejemplos, la primera se refiere a la distribución de la tasa de poblaciones encarceladas por continente (1), y la segunda a la distribución del contenido de azúcar por marca (2).

 
Fuente (1) (2)


Variaciones:

Los diagramas de caja de anchura variable (variable width), utilizan el ancho de la caja para representar el tamaño de los datos dentro de cada grupo, entonces, un grupo con un total mayor en los datos tendrá un ancho mayor. Los diagramas de caja con muescas (notched), tienen un estrechamiento de la caja alrededor de la mediana, esta es una forma útil de comparar las diferencias entre los valores medios, ya que las "muescas" actúan como una guía visual. Los gráficos de violín (violin plot), son un par de gráficos de densidad de Kernel unidos y los gráficos de florero (vase plot) y frijol (beans plot) son otras variaciones de un diagrama de caja. (3) 

Ejemplos:

Calculadoras:


Referencias: (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11), (12), (13), (14), (15).

No hay comentarios:

Publicar un comentario