Existem vários problemas com sua abordagem. Primeiro, você quer usar intervalos de confiança para algo que eles estavam não projetado. Se variar, o intervalo de confiança não mostrará como isso varia. Verificar Por que um intervalo de confiança de 95% (IC) não implica uma chance de 95% de conter a média? para saber mais sobre os intervalos de confiança. Além disso, o uso de aproximação normal para proporção binomial e seus intervalos de confiança não é uma boa ideia, conforme descrito por Brown et al (2001) .p
De fato, a partir da sua descrição, parece que você deseja estimar o intervalo credível bayesiano , ou seja, intervalo que conterá certa fração da distribuição de . Sim, eu disse bayesiano , pois na verdade você já definiu seu problema como um modelo bayesiano. Você diz que assume que é uma variável aleatória, enquanto que na configuração frequentista seria um parâmetro fixo. Se você já assumiu, por que não usar um modelo bayesiano para seus dados? Você usaria o modelo beta-binomial (consulte também Uma introdução ao modelo beta-binomialpppDan Navarro e Amy Perfors). Em casos como esse, é extremamente fácil estimar esse modelo. Podemos defini-lo da seguinte forma:
X∼ B i n o m i a l (N, P )p ∼ B e t a (α,β)
portanto, seus dados seguem a distribuição binomial parametrizada por e , onde é uma variável aleatória. Assumimos a distribuição beta com os parâmetros e como a priori para . Eu acho que se você quiser usar o método frequentista, você não tem nenhum conhecimento prévio sobre a possível distribuição de , então você escolheria "não informativo" antes parametrizado por ou (se preferir, você pode converter esses parâmetros emXNppαβppα = β= 1α = β= 0,5média e precisão , ou média e variância ). Depois de atualizar sua distribuição anterior , posterior de é simplesmente uma distribuição beta parametrizada porp
α′= α + número total de sucessosβ′= β+ número total de falhas
com média
E( X) = Nα′α′+β′
Para ler mais sobre o cálculo de outras quantidades dessa distribuição, consulte o artigo da Wikipedia sobre distribuição beta-binomial . Você pode calcular intervalos credíveis numericamente ou (a) invertendo numericamente a função de distribuição cumulativa da distribuição beta-binomial ou (b) amostrando grande número de valores aleatórios da distribuição beta-binomial e depois calculando quantis de amostra a partir dela. A segunda abordagem é bastante fácil, pois você só precisa repetir sequencialmente o seguinte procedimento:
- desenhar da distribuição beta parametrizada por e ,pα′β′
- desenhar de distribuição binomial parametrizada por e .xpN
até você desenhar uma amostra grande o suficiente para encontrá-la confiante no cálculo das quantidades de interesse.
Obviamente, se você conhece a média e o desvio padrão de e insiste em usar a distribuição normal para isso, também pode usar a simulação, mas usando a distribuição normal para simular os valores de . Abaixo, forneço um exemplo de código em R para essa simulação.pp
R <- 1e5 # number of samples to draw in simulation
N <- 500 # known N
mu <- 0.3 # known mean of p
sigma <- 0.07 # known standard deviation of p
p <- rnorm(R, mu, sigma) # simulate p
x <- rbinom(R, N, p) # simulate X
mean(x) # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)
Ou você pode simplesmente tomar quantiles apropriadas usando inverso da função de distribuição cumulativa normal e multiplicá-los por . Lembre-se, no entanto, de que este não é um intervalo de confiança, mas um intervalo credível.N
Brown, LD, Cai, TT e DasGupta, A. (2001). Estimativa de intervalo para uma proporção binomial. Ciência estatística, 101-117.