Considerando a incerteza de p ao estimar a média de uma distribuição binomial

7

Eu tenho uma distribuição binomial com parâmetros e , e a estimativa para a média da minha distribuição é N . Os valores de e são tais que podemos usar a aproximação gaussiana para estimar o da média como .O problema é que eu já estimei , então é na verdade uma distribuição gaussiana com uma média e conhecidos.O meu objetivo é encontrar um intervalo de confiança para a média da minha distribuição binomial, mas como levar em consideração a incerteza de ?Np×pNpσ(n×p(1p)ppσp

Helga Holmestad
fonte

Respostas:

15

Existem vários problemas com sua abordagem. Primeiro, você quer usar intervalos de confiança para algo que eles estavam não projetado. Se variar, o intervalo de confiança não mostrará como isso varia. Verificar Por que um intervalo de confiança de 95% (IC) não implica uma chance de 95% de conter a média? para saber mais sobre os intervalos de confiança. Além disso, o uso de aproximação normal para proporção binomial e seus intervalos de confiança não é uma boa ideia, conforme descrito por Brown et al (2001) .p

De fato, a partir da sua descrição, parece que você deseja estimar o intervalo credível bayesiano , ou seja, intervalo que conterá certa fração da distribuição de . Sim, eu disse bayesiano , pois na verdade você definiu seu problema como um modelo bayesiano. Você diz que assume que é uma variável aleatória, enquanto que na configuração frequentista seria um parâmetro fixo. Se você já assumiu, por que não usar um modelo bayesiano para seus dados? Você usaria o modelo beta-binomial (consulte também Uma introdução ao modelo beta-binomialpppDan Navarro e Amy Perfors). Em casos como esse, é extremamente fácil estimar esse modelo. Podemos defini-lo da seguinte forma:

XBinomial(N,p)pBeta(α,β)

portanto, seus dados seguem a distribuição binomial parametrizada por e , onde é uma variável aleatória. Assumimos a distribuição beta com os parâmetros e como a priori para . Eu acho que se você quiser usar o método frequentista, você não tem nenhum conhecimento prévio sobre a possível distribuição de , então você escolheria "não informativo" antes parametrizado por ou (se preferir, você pode converter esses parâmetros emXNppαβppα=β=1α=β=0.5média e precisão , ou média e variância ). Depois de atualizar sua distribuição anterior , posterior de é simplesmente uma distribuição beta parametrizada porp

α=α+total number of successesβ=β+total number of failures

com média

E(X)=Nαα+β

Para ler mais sobre o cálculo de outras quantidades dessa distribuição, consulte o artigo da Wikipedia sobre distribuição beta-binomial . Você pode calcular intervalos credíveis numericamente ou (a) invertendo numericamente a função de distribuição cumulativa da distribuição beta-binomial ou (b) amostrando grande número de valores aleatórios da distribuição beta-binomial e depois calculando quantis de amostra a partir dela. A segunda abordagem é bastante fácil, pois você só precisa repetir sequencialmente o seguinte procedimento:

  1. desenhar da distribuição beta parametrizada por e ,pαβ
  2. desenhar de distribuição binomial parametrizada por e .xpN

até você desenhar uma amostra grande o suficiente para encontrá-la confiante no cálculo das quantidades de interesse.


Obviamente, se você conhece a média e o desvio padrão de e insiste em usar a distribuição normal para isso, também pode usar a simulação, mas usando a distribuição normal para simular os valores de . Abaixo, forneço um exemplo de código em R para essa simulação.pp

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

Ou você pode simplesmente tomar quantiles apropriadas usando inverso da função de distribuição cumulativa normal e multiplicá-los por . Lembre-se, no entanto, de que este não é um intervalo de confiança, mas um intervalo credível.N


Brown, LD, Cai, TT e DasGupta, A. (2001). Estimativa de intervalo para uma proporção binomial. Ciência estatística, 101-117.

Tim
fonte
Obrigado por me responder. Eu acho que a segunda abordagem é a mais útil para mim. Como não tenho experiência com estatísticas bayesianas, preciso ler um pouco mais sobre isso e a distribuição beta. Só tenho uma pergunta sobre a etapa 1 da segunda abordagem: por que me basearia na distribuição beta, e não na distribuição que eu sei que p possui?
Helga Holmestad 05/10
2
@HelgaHolmestad porque você supõe que p vem da distribuição beta;) beta é uma distribuição muito melhor para p do que normal - é delimitada em [0,1], enquanto a distribuição normal varia de para +. Além disso, mesmo que por algum motivo a média e a variação de p sejam conhecidas antecipadamente, você poderá encontrar facilmente esses parâmetros beta que correspondem à média e à variação que você já conhece (consulte stats.stackexchange.com/questions/12232/… )
Tim