Intervalo de confiança para amostragem de Bernoulli

42

Eu tenho uma amostra aleatória de variáveis ​​aleatórias Bernoulli , em que X i são iidrv e P ( X i = 1 ) = p , e p é um parâmetro desconhecido.X1...XNXiP(Xi=1)=pp

Obviamente, pode-se encontrar uma estimativa para : p : = ( X 1 + + X N ) / N .pp^:=(X1++XN)/N

Minha pergunta é como posso criar um intervalo de confiança para ?p

ameba diz Restabelecer Monica
fonte
2
A wikipedia possui detalhes sobre como calcular intervalos de confiança para amostragem de bernoulli .

Respostas:

52
  • Se a , não é perto de 1 ou 0 , e o tamanho da amostra n é suficientemente grande (isto é, n p > 5 e n ( 1 - P ) > 5 , o intervalo de confiança pode ser estimada por uma distribuição normal e o intervalo de confiança construído assim:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • p^=0n>3095%[0,3n] p^=1n+1n+b

  • np^

R fornece funções binconf {Hmisc}e binom.confint {binom}que podem ser usadas da seguinte maneira:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Aproximado é melhor que 'exato' para estimativa de intervalo de proporções binomiais". The American Statistician 52: 119–126.

Jovanovic, BD e PS Levy, 1997. Um olhar sobre a regra dos três. O estatístico americano vol. 51, n. 2, pp. 137-139

Ross, TD (2003). "Intervalos de confiança precisos para proporção binomial e estimativa da taxa de Poisson". Computers in Biology and Medicine 33: 509-531.

David LeBauer
fonte
3
(+1) Boa resposta. Isso se tornará uma referência para perguntas semelhantes no futuro, eu acho. No entanto, a postagem cruzada é incomum; de fato, acredito que é desaprovado, porque estraga muitos aspectos do sistema de feedback / referência / encadeamento / comentário. Considere remover uma das cópias e substituí-la por um link em um comentário.
whuber
@whuber obrigado pelo feedback. Eu removi a outra cópia.
David LeBauer
Na primeira fórmula, o que são z1 e alfa?
Cirdec
z1α/21α/2α
3/n
7

Intervalos de confiança com probabilidade máxima

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

Esse IC possui o benefício adicional de que as proporções estão no intervalo entre 0 ou 1, e o IC é sempre mais estreito que o intervalo normal enquanto estiver no nível correto. Você pode obter isso muito facilmente no R especificando:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Intervalos de confiança binomial exatos

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Intervalos de confiança medianos e imparciais

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Essa também é uma rotina computacional.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Os dois últimos métodos são implementados no epitoolspacote em R.

AdamO
fonte