sábado, 21 de noviembre de 2020

Regla de Sturges


http://imarranz.com/sturges.html 


Regla de Sturges

En estadística descriptiva la Regla de Sturges es un criterio muy utilizado cuando se quiere realizar un histograma de frecuencias ya que con esta regla se calcula el número de clases (o intervalos) necesarios para representar fielmente los datos.

La Regla de Sturges nos propone que dadas N observaciones, el número k de intervalos viene dado por

k=1+log2(N)

Donde N es el número de muestras observadas y k el número óptimo de clases o intervalos.

Hoy en día, con el uso del ordenador, esta regla se hace menos conocida ya que son los propios paquetes estadísticos los que se encargan de calcular el número de intervalos óptimo. De hecho, en R, el comando hist tiene el parámetro breaks = “Sturges” por defecto, aunque siempre podemos modificar este parámetro.

Ahora bien, ¿de donde viene la regla de Sturges?

Sturges consideró un histograma de frecuencias ideal con k intervalos, donde el i-ésimo intervalo contiene un número de muestras dado por el Coeficiente Binomial:

C(k1,i),Cik1,(k1i)=(k1)!i!(k1i)!

En R se puede calcular el Coeficiente Binomial mediante la función combn(k-1, i).

Por el Teorema Central del Límite sabemos que cuando k aumente el histograma de frecuencias se aproximará a la distribución Normal, por lo que podemos calcular el número de muestras de todos los intervalos, ya que

N=i=0k1(k1i)=(1+1)k1=2k1

Si aplicamos logaritmos a ambas partes de la ecuación, tenemos:

log2(N)=k1

por lo que el número óptimo de intervalo k vendrá dado por:

k=1+log2(N)

que es la Regla de Sturges.

Veamos algunos ejemplos donde podamos ver el ajuste dado por este criterio. Vamos a considerar 500 muestras provenientes de una distribución normal de media 10 y desviación típica 2.

Ahora realizamos tres histogramas con estos datos em los que vamos a aplicar la Regla de Sturges y una aproximación por debajo y por encima del número de intervalos propuestos por la Regla de Sturges. Si calculamos el número de intervalos porpuestos por la Regla de Sturges vemos que:

k=1+log2(N)=1+log2(500)10

Es decir, 10 intervalos.

**FIGURA 1**: Tres aproximaciones a la distribución de las 500 observaciones siguiendo tres criterios.

FIGURA 1: Tres aproximaciones a la distribución de las 500 observaciones siguiendo tres criterios.

Observamos que al usar la regla Sturges no obtenemos exactamente 10 clases, ya que la función intenta ajustar el número de intervalos óptimo con unos cortes naturales. En esta caso, los cortes coinciden con valores enteros

No hay comentarios:

Publicar un comentario