http://imarranz.com/sturges.html
Regla de Sturges
En estadística descriptiva la Regla de Sturges es un criterio muy utilizado cuando se quiere realizar un histograma de frecuencias ya que con esta regla se calcula el número de clases (o intervalos) necesarios para representar fielmente los datos.
La Regla de Sturges nos propone que dadas N observaciones, el número k de intervalos viene dado por
Donde N es el número de muestras observadas y k el número óptimo de clases o intervalos.
Hoy en día, con el uso del ordenador, esta regla se hace menos conocida ya que son los propios paquetes estadísticos los que se encargan de calcular el número de intervalos óptimo. De hecho, en R
, el comando hist
tiene el parámetro breaks = “Sturges”
por defecto, aunque siempre podemos modificar este parámetro.
Ahora bien, ¿de donde viene la regla de Sturges?
Sturges consideró un histograma de frecuencias ideal con k intervalos, donde el i-ésimo intervalo contiene un número de muestras dado por el Coeficiente Binomial:
En R
se puede calcular el Coeficiente Binomial mediante la función combn(k-1, i)
.
Por el Teorema Central del Límite sabemos que cuando k aumente el histograma de frecuencias se aproximará a la distribución Normal, por lo que podemos calcular el número de muestras de todos los intervalos, ya que
Si aplicamos logaritmos a ambas partes de la ecuación, tenemos:
por lo que el número óptimo de intervalo k vendrá dado por:
que es la Regla de Sturges.
Veamos algunos ejemplos donde podamos ver el ajuste dado por este criterio. Vamos a considerar 500 muestras provenientes de una distribución normal de media 10 y desviación típica 2.
Ahora realizamos tres histogramas con estos datos em los que vamos a aplicar la Regla de Sturges y una aproximación por debajo y por encima del número de intervalos propuestos por la Regla de Sturges. Si calculamos el número de intervalos porpuestos por la Regla de Sturges vemos que:
Es decir, 10 intervalos.
Observamos que al usar la regla Sturges
no obtenemos exactamente 10 clases, ya que la función intenta ajustar el número de intervalos óptimo con unos cortes naturales. En esta caso, los cortes coinciden con valores enteros
No hay comentarios:
Publicar un comentario