Los gráficos de caja y bigotes

En estadística es más que habitual (casi preceptivo) la elaboración de gráficos que permitan visualizar y entender mejor los conjuntos de datos.

Uno de los gráficos más usados, y más desconocidos, es el gráfico de caja (y bigotes).

#EnHebrasMatemáticas

Dentro hilo ⬇️⬇️

Los gráficos de caja y bigotes (box-and-whisker plot, en inglés) son herramientas más que habituales como punto de partida de cualquier análisis estadístico.

Los verás aplicados a datos relacionados con la medicina, medio ambiente, ciencias sociales o finanzas, entre otros ámbitos.

Para que te hagas una idea, este es el aspecto de los gráficos de caja y bigotes. En este caso, el conjunto de datos está variando y es por ello que el gráfico también varía.

Quizás ya intuyas algún patrón asociado a la cantidad de datos y el tamaño de cada trozo del gráfico.

El gráfico de caja y bigotes (a partir de ahora, gráfico de caja) es de origen reciente si lo comparamos, por ejemplo, con los diagramas de barras y sectores (William Playfair, finales del s. XVIII) o el diagrama de la rosa (Florence Nightingale, mitad del s. XIX).

Los primeros aparecieron en el año 1970. Hace nada, 51 años.

Fue John Wilder Tukey (1915-2000), profesor de la Universidad de Princeton (EEUU), quien lo presentó en su libro “Exploratory Data Analysis”.

El objetivo principal de Tukey era proponer una representación gráfica sencilla que permitiera visualizar la forma de la distribución.

El gráfico aparece en el capítulo 2 “Resúmenes Esquemáticos (Figuras y Números)” (página 39) tras ciertos comentarios sobre la mediana y demás.

A tal fin, Tukey consideró oportuno utilizar lo que denominó “el resumen de los cinco números”:

Mínimo, bisagra 1, mediana, bisagra 2, y máximo.

Lo mejor es verlo con un ejemplo, ¡vamos allá!

Supongamos que disponemos de trece datos que representan, por ejemplo, el tiempo (en días) que ha transcurrido desde que trece sujetos reciben una vacuna (llamémosle A) hasta que adquieren la deseada inmunidad:

16, 12, 8, 10, 11, 14, 9, 34, 31, 13, 15, 17, 25.

Un paso previo a la obtención del resumen de los cinco números (y a la construcción del gráfico de caja) es la ordenación de los datos de menor a mayor.

El primero y el quinto número del mencionado resumen son el mínimo y el máximo de los datos, respectivamente. Aquí hay poco que objetar.

El tercer número es la mediana, es decir, el valor que ocupa el lugar central cuando los datos están ordenados de menor a mayor.

La mediana es una medida de posición central adecuada cuando hay asimetría o valores atípicos.

El segundo y el cuarto valor son las bisagras:

La bisagra 1 (H_1) es la mediana de los datos a la izquierda (incluyendo la mediana en caso de que sea un dato).

La bisagra 2 (H_2) es la mediana de los datos a la derecha (incluyendo la mediana en caso de que sea un dato).

A veces, las bisagras 1 y 2 se sustituyen por los cuartiles 1 y 3, respectivamente. Esto es así porque solo difieren cuando el número de datos (n) dividido entre 4 da de resto 3.

Además, si este fuera el caso, cuando el número de datos es muy grande, bisagras y cuartiles son muy similares.

Tukey representaba el resumen de los cinco números dentro de recuadro.

Además, en ejemplos sencillos, disponía los datos en forma de zigzag para que se visualizara cómo estos valores “troceaban” en cuatro partes la distribución de datos con aprox. el 25% de datos cada una.

El gráfico de caja se puede construir en disposición horizontal o vertical. Aquí usaremos esta última, tal y como hace R.
Así pues, como paso previo, escalaremos el eje Y teniendo en cuenta la magnitud de nuestros datos.

El gráfico de caja consta de dos partes principales:

  1. Una caja.
  2. Los bigotes y (eventualmente) los datos atípicos.

Cada una de ellas nos da mucha información sobre la distribución de los datos. Vayamos paso a paso.

La caja es un rectángulo que representa a todos aquellos datos que “están en el centro” de la distribución (el 50% aproximadamente).

La caja

A tal fin, la parte inferior de la caja está a una altura igual a la bisagra 1 y la parte superior, a una altura igual a la bisagra 2.

Además, la caja está dividida en dos por un segmento que está a una altura igual a la mediana.

Esta partición no tiene por qué ser simétrica respecto a la caja completa. De hecho, dependerá de la simetría de los datos.

Los bigotes (y eventuales datos atípicos)

Los bigotes son las dos “líneas” en forma de T y ⊥, respectivamente, que parten de las “tapas” inferior y superior de la caja.

En ambos casos llegan hasta los datos que, podríamos decir, delimitan las fronteras entre aquellos datos “razonables” y aquellos atípicamente pequeños y atípicamente grandes (que puede haber o no).

Estos datos se llaman valores adyacentes y su cálculo sigue varios pasos:

B1) Cálculo del factor de escala o H-spread:

FE=1.5 (H_2-H_1).

Esta cantidad es 1.5 veces la altura de la caja, es decir, dicha altura aumentada en un 50%.

B2) Cálculo de las fronteras:

Para la parte inferior de la caja, tomó H_1, le restó el factor de escala y llamó frontera interior inferior a esta cantidad (f_1=H_1-FE).

Para la parte superior de la caja, tomó H_2, le sumó el factor de escala y llamó frontera interior superior a esta cantidad f_2 (f_2=H_2+FE).

Estas fronteras no se representan realmente en el gráfico, pero sirven para:

  1. Determinar hasta qué valor debe llegar el bigote correspondiente (valor adyacente inferior y superior).
  2. Determinar si hay datos que, por ser demasiado pequeños o grandes, pueden resultar un poco raros en comparación con el resto (valores atípicos).

B3) Cálculo de los valores adyacentes:

Para la parte inferior de la caja, el valor adyacente inferior es el dato más cercano a f_1 siendo mayor.

Para la parte superior de la caja, el valor adyacente superior es el dato más cercano a f_2 siendo menor.

B4) Identificación de los valores atípicos:

Para la parte inferior de la caja, los valores atípicos son aquellos menores que f_1.

Para la parte superior de la caja, los valores atípicos son aquellos mayores que f_2.

Hay que tener en cuenta que, en cada parte, puede haber o no haber valores atípicos.

A veces, se distinguen dos tipos de valores atípicos a partir de las fronteras exteriores F_1=f_1-FE y F_2=f_2+FE.

Los menores están entre entre f_1 y F_1 o f_2 y F_2.

Los mayores están “más allá” de la frontera exterior (más pequeños que F_1 o más grandes que F_2).

Y ya tendríamos construido nuestro gráfico de caja en la versión más simple (a la derecha el gráfico obtenido con R).

A lo largo de los años han aparecido variaciones que han enriquecido estas construcciones:

https://vita.had.co.nz/papers/boxplots.html

http://shiny.chemgrid.org/boxplotr/

Los gráficos de caja dan idea de la simetría o asimetría de la distribución y advierten de la presencia o ausencia de datos atípicos.

Y, además, permiten comparar de un vistazo varios conjuntos de datos. De hecho, es raro ver un gráfico de caja que no vaya acompañado por otros.

Por ejemplo, supongamos que disponemos de datos correspondientes a otra vacuna (B), si pintamos su gráfico de caja junto a los datos de la vacuna A, podemos decir si los tiempos en una u otra son más largos, si hay mayor o menor simetría, si hay valores atípicos para alguna vacuna, etc.

+ recursos:
 
Para profundizar: https://matesnoaburridas.wordpress.com/2021/03/28/diagramas-cajas-y-bigotes/ vía @EbeniTIC
Para practicar: https://www.geogebra.org/m/KV4aaZCr vía @JavierCayetan19
Para construirlos en R: https://www.r-graph-gallery.com/boxplot.html

Y esto es todo lo que quería contar sobre los gráficos de caja y bigotes. Muchísimas gracias por leer hasta aquí.

2 comentarios sobre “Los gráficos de caja y bigotes

Agrega el tuyo

  1. Magnifica entrada te has marcado para empezar el año 2022.

    Muchísimas gracias por poner el enlace de mi Blog, espero que sirva para aclarar este tipo de representación de datos poco conocida por los ciudadanos.

    Un abrazo

    Me gusta

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Blog de WordPress.com.

Subir ↑

La de Maldita Melena

Blog personal de Natalia Robles Mures

El sitio tranquilo

No sé vender mi producto

Messiánico de Alfredo N. Avila

Disfruta y comparte mis letras. Contenido diario... Sígueme para más inspiraciones literarias.

Qué vamos a hacer hoy

Matemáticas + Actividades en familia por Córdoba y en casa

Literatura de Japón

Tu portal de lectura asiática y mucho más.

Bits&Science

Ciencia natural y formal... con humor.

John Aranda

Blog de literatura, música, poesía y filosofía.

Letras & Poesía: Literatura Independiente

Plataforma que promueve el trabajo de escritores independientes

Crea tu sitio web con WordPress.com
Comenzar
A %d blogueros les gusta esto: