Un gráfico boxplot, también conocido como diagrama de caja y bigotes, es una herramienta gráfica para visualizar la distribución de un conjunto de datos y resumir varias características importantes de manera concisa. Fue desarrollado por el estadístico John Tukey en la década de 1970.

Interpretar un gráfico de boxplot es relativamente sencillo y puede proporcionar una gran cantidad de información sobre la distribución de los datos.

·       Mediana: La línea dentro del rectángulo representa la mediana de los datos. Indicaría el valor que divide al total del conjunto de datos en dos partes iguales, con el 50% de estos por encima y el 50% por debajo.

·       Rango intercuartílico IQR*: La caja en el boxplot representa la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). El 50% de los datos se encuentran dentro de esta caja. La longitud de la caja indica la variabilidad de los datos. *IQR = interquartile Range.

·       Bigotes: Los bigotes se extienden desde los bordes de la caja hasta los puntos que están dentro de 1.5 veces el IQR desde el primer y tercer cuartil. Los datos que caen fuera de los bigotes se pueden considerar como valores atípicos o valores extremos, pero no necesariamente errores en la recopilación de datos.

·       Valores atípicos: Los puntos que están más allá de los bigotes se muestran como puntos individuales y se consideran valores atípicos (outliers). Pueden indicar variabilidad adicional en los datos o, errores en la recopilación de datos.

·       Simetría y sesgo: La simetría y el sesgo de los datos se pueden inferir observando la distribución de los datos a través del boxplot. Por ejemplo, si la mediana no está cerca del centro de la caja, podría indicar una distribución sesgada.

·       Comparaciones: Los boxplots también son útiles para comparar distribuciones entre diferentes grupos. Por ejemplo, en este caso concreto en el que comparamos el efecto de diferentes dietas sobre el crecimiento de los animales, podemos ver rápidamente si hay diferencias en las medianas, la dispersión o la presencia de valores atípicos entre los grupos.

DATASET CHICKWEIGHT

El conjunto de datos ChickWeight es un dataset integrado en R que contiene información sobre el peso de pollos que han crecido alimentándose de diferentes dietas a lo largo del tiempo. Es comúnmente utilizado en ejemplos de análisis de datos y en la enseñanza de técnicas estadísticas y de visualización en R. En este caso utilizamos estos datos para representar visualmente los pesos alcanzados con cada una de las dietas mediante gráficos boxplot.

Para ver el conjunto de datasets utiliza data()

Nombre del conjunto de datos: ChickWeight

Tipo de datos: Datos longitudinales (es decir, datos recopilados en múltiples momentos a lo largo del tiempo)

Variables:

Weight: Peso del individuo.

Time: Tiempo de observación (días).

Chick: Identificador único para cada animal.

Diet: Tipo de dieta que recibe el pollito. Existen cuatro tipos de dieta en este conjunto de datos.

Observaciones: Cada fila en el conjunto de datos representa una observación de un pollito en un momento específico del tiempo.

CÓDIGO R