aproximação normal à distribuição binomial: por que np> 5?

9

Quase todos os livros de texto que discute a aproximação normal para a distribuição binomial menciona a regra de ouro que a aproximação pode ser usado se e . Alguns livros sugerem . A mesma constante geralmente aparece nas discussões sobre quando mesclar células no . Nenhum dos textos que encontrei fornece uma justificativa ou referência para esta regra de ouro.np5n(1p)5np(1p)55χ2

De onde vem esse constante 5? Por que não 4, 6 ou 10? Onde esta regra geral foi introduzida originalmente?

jochen
fonte
5
É uma regra de ouro. Se fosse rigoroso, você não precisaria do polegar.
Hong Ooi
2
Eu também vi e . np(1p)>9np(1p)>10
Glen_b -Reinstala Monica 30/11

Respostas:

7

Algumas possibilidades são oferecidas pelo artigo da Wikipedia sobre distribuição binomial, na seção Aproximação normal , que atualmente inclui o seguinte comentário (ênfase minha):

Outra regra comumente usada é que os valores e devem ser maiores que 5. No entanto, o número específico varia de fonte para fonte e depende de quão boa seja a aproximação desejada.npn(1p)

Agora, isso está associado a garantir que a aproximação normal caia dentro dos limites legais para uma variável binomial .xN(μ,σ)x[0,n]

Para esclarecer isso, se parametrizarmos a probabilidade de cobertura desejada em termos de um z-score , teremos Usando os momentos binomiais e , as restrições acima requerem Portanto, para essa abordagem, corresponderia a uma probabilidade de cobertura de que é o CDF normal padrãoz>0

μ±zσ[0,n]zσmin[μ,nμ]z2min[μ2σ2,(nμ)2σ2]
μ=npσ2=np(1p)
min[p,1p]nz2
z2=5
Φ[5]Φ[5]97.5%
Φ.

Então, na medida em que essa probabilidade de cobertura é "bonita" e 5 é um bom número redondo ... isso poderia dar alguma justificativa, talvez? Como não tenho muita experiência com textos de probabilidade, não posso dizer quão "5" é comum, em comparação com outros "números específicos" para usar o fraseado da Wikipedia. Meu sentimento é que não há nada realmente especial sobre 5, e a Wikipedia sugere que 9 também é comum (correspondendo a um "bonito" de 3).z

GeoMatt22
fonte
4

Não uma explicação completa, mas é interessante para voltar para Cochran 1952 Anais de Matemática Stats "A teste de bondade de ajuste" ( http://www.jstor.org/stable/2236678 ), Parte II (" Alguns aspectos do uso prático do teste "), que é uma antiguidade bastante respeitável no campo ... Cochran discute a história dos fundamentos teóricos do teste (Pearson 1900, Fisher 1922, 1924), mas não toca na regra de ouro até a seguinte passagem ... [grifo nosso]χ2

7. A expectativa mínima . Como x2 foi estabelecido como a distribuição limitadora de X2 em amostras grandes, é habitual recomendar, nas aplicações do teste, que o menor número esperado em qualquer classe seja 10 ou (com alguns autores) 5. ... Recentemente, esse tópico foi objeto de intensa discussão entre os psicólogos [17], [18]. Os números 10 e 5 parecem ter sido escolhidos arbitrariamente. Algumas investigações lançam alguma luz sobre a adequação da regra. A abordagem foi examinar a distribuição exata de X2, quando algumas ou todas as expectativas são pequenas, seja por métodos matemáticos ou por experimentos de amostragem.

As investigações são escassas e de escopo estreito, como é de se esperar, pois o trabalho desse tipo é demorado. Assim, as recomendações fornecidas abaixo podem exigir modificações quando novas evidências se tornarem disponíveis.

Para discordar por um momento, o problema de investigar o comportamento de X2 quando as expectativas são pequenas é um exemplo de toda uma classe de problemas relevantes para as estatísticas aplicadas. Nas aplicações, é uma ocorrência cotidiana usar os resultados de um corpo de teoria em situações em que sabemos, ou suspeitamos fortemente, que algumas das suposições da teoria são inválidas. Assim, a literatura contém investigações da distribuição t quando a população parental não é normal e do desempenho da regressão linear estima quando a regressão na população é na verdade não linear. Felizmente para aplicações, os resultados da teoria às vezes permanecem substancialmente verdadeiros, mesmo quando algumas suposições não se mantêm. Esse fato tende a tornar a estatística um assunto mais confuso do que a matemática pura,

Ben Bolker
fonte
1

Além das excelentes respostas já publicadas, achei que seria útil ter uma visualização explorando as distribuições das proporções observadas para os valores variados de e .np

Para gerar os histogramas abaixo, tirei amostras de um ensaio de Bernoulli com probabilidade e repeti esse processo 10.000 vezes. Eu, então, gerei um histograma das proporções observadas em cada uma dessas 10.000 experiências.np

Gráfico dos referidos histogramas

Visualmente falando, parece que é bastante razoável. Embora quando pareça ainda haver algum recorte acontecendo com e . Quando você chega a , o impacto parece bem pequeno.np5n=50np=5.5np=6.5np=7.5

Observe também que essas parcelas seria simétrico para se tomou novas valores de .pp=(1p)

Código Python para gerar os gráficos. Você pode usar isto para ajustar e , se você quiser experimentar a si mesmo.np

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()
kbrose
fonte
0

A regra fornece um critério que garante que p não seja próximo de 0 nem de 1. Se estiver próximo de 0 ou 1, a distribuição resultante não será uma boa correlação com a distribuição normal.

Você pode ver uma justificativa pictórica do mesmo aqui

Bach
fonte
2
Sim eu concordo. Mas também forneceria esse critério. Então, por que 5? np(1p)>10
Jochen