Quase todos os livros de texto que discute a aproximação normal para a distribuição binomial menciona a regra de ouro que a aproximação pode ser usado se e . Alguns livros sugerem . A mesma constante geralmente aparece nas discussões sobre quando mesclar células no . Nenhum dos textos que encontrei fornece uma justificativa ou referência para esta regra de ouro.
De onde vem esse constante 5? Por que não 4, 6 ou 10? Onde esta regra geral foi introduzida originalmente?
Respostas:
Algumas possibilidades são oferecidas pelo artigo da Wikipedia sobre distribuição binomial, na seção Aproximação normal , que atualmente inclui o seguinte comentário (ênfase minha):
Agora, isso está associado a garantir que a aproximação normal caia dentro dos limites legais para uma variável binomial .x∼N(μ,σ) x∈[0,n]
Para esclarecer isso, se parametrizarmos a probabilidade de cobertura desejada em termos de um z-score , teremos Usando os momentos binomiais e , as restrições acima requerem Portanto, para essa abordagem, corresponderia a uma probabilidade de cobertura de que é o CDF normal padrãoz>0
Então, na medida em que essa probabilidade de cobertura é "bonita" e 5 é um bom número redondo ... isso poderia dar alguma justificativa, talvez? Como não tenho muita experiência com textos de probabilidade, não posso dizer quão "5" é comum, em comparação com outros "números específicos" para usar o fraseado da Wikipedia. Meu sentimento é que não há nada realmente especial sobre 5, e a Wikipedia sugere que 9 também é comum (correspondendo a um "bonito" de 3).z
fonte
Não uma explicação completa, mas é interessante para voltar para Cochran 1952 Anais de Matemática Stats "A teste de bondade de ajuste" ( http://www.jstor.org/stable/2236678 ), Parte II (" Alguns aspectos do uso prático do teste "), que é uma antiguidade bastante respeitável no campo ... Cochran discute a história dos fundamentos teóricos do teste (Pearson 1900, Fisher 1922, 1924), mas não toca na regra de ouro até a seguinte passagem ... [grifo nosso]χ2
fonte
Além das excelentes respostas já publicadas, achei que seria útil ter uma visualização explorando as distribuições das proporções observadas para os valores variados de e .n p
Para gerar os histogramas abaixo, tirei amostras de um ensaio de Bernoulli com probabilidade e repeti esse processo 10.000 vezes. Eu, então, gerei um histograma das proporções observadas em cada uma dessas 10.000 experiências.n p
Visualmente falando, parece que é bastante razoável. Embora quando pareça ainda haver algum recorte acontecendo com e . Quando você chega a , o impacto parece bem pequeno.np≥5 n=50 np=5.5 np=6.5 np=7.5
Observe também que essas parcelas seria simétrico para se tomou novas valores de .p′ p′=(1−p)
Código Python para gerar os gráficos. Você pode usar isto para ajustar e , se você quiser experimentar a si mesmo.n p
fonte
A regra fornece um critério que garante que p não seja próximo de 0 nem de 1. Se estiver próximo de 0 ou 1, a distribuição resultante não será uma boa correlação com a distribuição normal.
Você pode ver uma justificativa pictórica do mesmo aqui
fonte