A Wikipedia relata que, sob a regra de Freedman e Diaconis, o número ideal de posições em um histograma, deve crescer conforme
onde é o tamanho da amostra.
No entanto, se você observar a nclass.FD
função em R, que implementa essa regra, pelo menos com dados gaussianos e quando , o número de posições parece crescer a uma taxa mais rápida que , mais próximo de (na verdade, o melhor ajuste sugere ). Qual é a justificativa para essa diferença?n 1 / 3 n 1 - √ m≈n0,4
Editar: mais informações:
A linha é a linha OLS, com interceptação 0.429 e inclinação 0.4. Em cada caso, os dados ( x
) foram gerados a partir de um gaussiano padrão e alimentados no nclass.FD
. O gráfico mostra o tamanho (comprimento) do vetor versus o número ideal de classe retornado pela nclass.FD
função.
Citações da wikipedia:
Uma boa razão pela qual o número de compartimentos deve ser proporcional a é o seguinte: suponha que os dados sejam obtidos como n realizações independentes de uma distribuição de probabilidade limitada com densidade suave. Então, o histograma permanece igualmente "robusto", pois n tende ao infinito. Se é a »largura« da distribuição (por exemplo, o desvio padrão ou a faixa inter-quartil), então o número de unidades em um compartimento (a frequência) é da ordem o erro padrão relativo é da ordem . Comparando com o próximo compartimento, a mudança relativa da frequência é da ordem desde que a derivada da densidade seja diferente de zero. Esses dois são da mesma ordem se s n h / s √ h/shs/n 1 / 3 kn 1 / 3é da ordem , de modo que é da ordem .
A regra Freedman – Diaconis é:
fonte
Respostas:
A razão vem do fato de que a função histograma deve incluir todos os dados, portanto, ela deve abranger o intervalo dos dados.
A regra Freedman-Diaconis fornece uma fórmula para a largura dos compartimentos.
A função fornece uma fórmula para o número de posições.
A relação entre o número de posições e a largura das posições será afetada pelo intervalo dos dados.
Com dados gaussianos, o intervalo esperado aumenta com .n
Aqui está a função:
diff(range(x))
é o intervalo dos dados.Então, como vemos, ele divide o intervalo de dados pela fórmula FD para a largura do compartimento (e arredonda para cima) para obter o número de compartimentos.
Parece que eu poderia ter sido mais claro, então aqui está uma explicação mais detalhada:n−1/3 n n1/3
A regra Freedman-Diaconis real não é uma regra para o número de posições, mas para a largura da posição. Pela análise deles, a largura do compartimento deve ser proporcional a . Como a largura total do histograma deve estar intimamente relacionada ao intervalo de amostra (pode ser um pouco maior, devido ao arredondamento para números agradáveis), e o intervalo esperado muda com , o número de compartimentos não é inversamente proporcional a largura do compartimento, mas deve aumentar mais rápido que isso. Portanto, o número de compartimentos não deve crescer como - próximo a ele, mas um pouco mais rápido, devido à maneira como o intervalo entra nele. n n 1 / 3
Observando os dados das tabelas de 1925 de Tippett [1], o intervalo esperado em amostras normais padrão parece crescer muito lentamente com , no entanto - mais lento que :log ( n )n log(n)
(de fato, a ameba indica nos comentários abaixo que deve ser proporcional - ou quase tão - a , que cresce mais lentamente do que sua análise na pergunta parece sugerir. Isso me faz pensar se há está chegando outro problema, mas não investiguei se esse efeito de intervalo explica completamente seus dados.)log(n)−−−−−√
Uma rápida olhada nos números de Tippett (que chegam a n = 1000) sugere que o intervalo esperado em um gaussiano é muito próximo de linear em acima de , mas parece não ser proporcional para valores nesse intervalo. 10≤n≤1000log(n)−−−−−√ 10≤n≤1000
[1]: LHC Tippett (1925). "Sobre os indivíduos extremos e a variedade de amostras retiradas de uma população normal". Biometrika 17 (3/4): 364–387
fonte