Considerando a incerteza de p ao estimar a média de uma distribuição binomial

Existem vários problemas com sua abordagem. Primeiro, você quer usar intervalos de confiança para algo que eles estavam não projetado. Se variar, o intervalo de confiança não mostrará como isso varia. Verificar Por que um intervalo de confiança de 95% (IC) não implica uma chance de 95% de conter a média? para saber mais sobre os intervalos de confiança. Além disso, o uso de aproximação normal para proporção binomial e seus intervalos de confiança não é uma boa ideia, conforme descrito por Brown et al (2001) . $p$

De fato, a partir da sua descrição, parece que você deseja estimar o intervalo credível bayesiano , ou seja, intervalo que conterá certa fração da distribuição de . Sim, eu disse bayesiano , pois na verdade você já definiu seu problema como um modelo bayesiano. Você diz que assume que é uma variável aleatória, enquanto que na configuração frequentista seria um parâmetro fixo. Se você já assumiu, por que não usar um modelo bayesiano para seus dados? Você usaria o modelo beta-binomial (consulte também Uma introdução ao modelo beta-binomial $p$ $p$ $p$ Dan Navarro e Amy Perfors). Em casos como esse, é extremamente fácil estimar esse modelo. Podemos defini-lo da seguinte forma:

X \sim B i n o m i a l (N, p) p \sim B e t a (α, β)

$X \sim \mathrm{Binomial}(N, p) \\ p \sim \mathrm{Beta}(\alpha, \beta)$

portanto, seus dados seguem a distribuição binomial parametrizada por e , onde é uma variável aleatória. Assumimos a distribuição beta com os parâmetros e como a priori para . Eu acho que se você quiser usar o método frequentista, você não tem nenhum conhecimento prévio sobre a possível distribuição de , então você escolheria "não informativo" antes parametrizado por ou (se preferir, você pode converter esses parâmetros em $X$ $N$ $p$ $p$ $\alpha$ $\beta$ $p$ $p$ $\alpha = \beta = 1$ $\alpha = \beta = 0.5$ média e precisão , ou média e variância ). Depois de atualizar sua distribuição anterior , posterior de é simplesmente uma distribuição beta parametrizada por $p$

α^{'} = α + total number of successes β^{'} = β + total number of failures

$\alpha' = \alpha + \text{total number of successes} \\ \beta' = \beta + \text{total number of failures}$

com média

E (X) = N \frac{α^{'}}{α^{'} + β^{'}}

$E(X) = N \frac{\alpha'}{\alpha'+\beta'}$

Para ler mais sobre o cálculo de outras quantidades dessa distribuição, consulte o artigo da Wikipedia sobre distribuição beta-binomial . Você pode calcular intervalos credíveis numericamente ou (a) invertendo numericamente a função de distribuição cumulativa da distribuição beta-binomial ou (b) amostrando grande número de valores aleatórios da distribuição beta-binomial e depois calculando quantis de amostra a partir dela. A segunda abordagem é bastante fácil, pois você só precisa repetir sequencialmente o seguinte procedimento:

desenhar da distribuição beta parametrizada por e , $p$ $\alpha'$ $\beta'$

desenhar de distribuição binomial parametrizada por e . $x$ $p$ $N$

até você desenhar uma amostra grande o suficiente para encontrá-la confiante no cálculo das quantidades de interesse.

Obviamente, se você conhece a média e o desvio padrão de e insiste em usar a distribuição normal para isso, também pode usar a simulação, mas usando a distribuição normal para simular os valores de . Abaixo, forneço um exemplo de código em R para essa simulação. $p$ $p$

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

Ou você pode simplesmente tomar quantiles apropriadas usando inverso da função de distribuição cumulativa normal e multiplicá-los por . Lembre-se, no entanto, de que este não é um intervalo de confiança, mas um intervalo credível. $N$

Brown, LD, Cai, TT e DasGupta, A. (2001). Estimativa de intervalo para uma proporção binomial. Ciência estatística, 101-117.

Tim
fonte

Obrigado por me responder. Eu acho que a segunda abordagem é a mais útil para mim. Como não tenho experiência com estatísticas bayesianas, preciso ler um pouco mais sobre isso e a distribuição beta. Só tenho uma pergunta sobre a etapa 1 da segunda abordagem: por que me basearia na distribuição beta, e não na distribuição que eu sei que p possui?

Helga Holmestad 05/10

@HelgaHolmestad porque você supõe que p vem da distribuição beta;) beta é uma distribuição muito melhor para p do que normal - é delimitada em [0,1], enquanto a distribuição normal varia de

- \infty

$-\infty$ para

+ \infty

$+\infty$ . Além disso, mesmo que por algum motivo a média e a variação de p sejam conhecidas antecipadamente, você poderá encontrar facilmente esses parâmetros beta que correspondem à média e à variação que você já conhece (consulte stats.stackexchange.com/questions/12232/… )

Tim

Considerando a incerteza de p ao estimar a média de uma distribuição binomial

Respostas: