Intervalo de confiança em torno da estimativa binomial de 0 ou 1

36

Qual é a melhor técnica para calcular um intervalo de confiança de um experimento binomial, se sua estimativa é de que (ou similarmente ) e o tamanho da amostra são relativamente pequenos, por exemplo ?p=0p=1n=25

Kasper
fonte
Como próximo de zero é p ? É zero frequentemente, ou da ordem de 0,001, 0,01 ou ...? E quantos dados você tem? p^
jbowman
Geralmente, temos mais de 800 tentativas. Nós normalmente esperar 0-0,1 para pp^
AI2.0
Use o intervalo Clopper – Pearson que você vinculou. O princípio geral: tente o intervalo Clopper – Pearson primeiro. Se o computador não conseguir obter a resposta, tente o método de aproximação, como a aproximação normal. De acordo com a velocidade atual do computador, acho que não precisamos de aproximação na maioria das situações.
user158565
Para obter apenas o limite superior do intervalo de confiança com (1 - nível de confiança, usaremos B (1 ‐ α ; x + 1, n ‐ x) onde x é o número de sucessos (ou falhas), n é . o tamanho da amostra em Python, é só usar Se isso for verdade, podemos concluir que estamos 1-. α confiante de que o limite superior é delimitada pelo valor calculamos a partir de ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0
1
Com 800 tentativas, a aproximação normal usual funcionará razoavelmente bem até cerca de (minhas simulações indicaram uma cobertura real de 94,5% de um intervalo de confiança de 95%.) Em 1000 tentativas ep = 0,01 , a cobertura real era de cerca de 92,7% (todas baseadas em 100.000 repetições.) Portanto, esse é apenas um problema para p muito baixo, considerando a contagem de tentativas. p=0.015p=0.01p
jbowman

Respostas:

53

Não use a aproximação normal

Muito foi escrito sobre esse problema. Um conselho geral é nunca usar a aproximação normal (ou seja, o intervalo de confiança assintótico / Wald), pois possui propriedades de cobertura terríveis. Código R para ilustrar isso:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Probabilidades de cobertura para intervalos de confiança assintóticos para uma proporção binomial.

Para pequenas probabilidades de sucesso, você pode solicitar um intervalo de confiança de 95%, mas obter, por exemplo, um intervalo de confiança de 10%!

Recomendações

Então, o que devemos usar? Acredito que as recomendações atuais são as listadas no artigo Estimativa de intervalo para uma proporção binomial de Brown, Cai e DasGupta na Statistical Science 2001, vol. 16, n. 2, páginas 101–133. Os autores examinaram vários métodos para calcular intervalos de confiança e chegaram à seguinte conclusão.

[Recomendamos o intervalo Wilson ou o intervalo anterior de Jeffreys de cauda igual para n pequeno e o intervalo sugerido em Agresti e Coull para n maior .

O intervalo Wilson também é chamado de intervalo de pontuação , pois é baseado na inversão de um teste de pontuação.

Cálculo dos intervalos

Para calcular esses intervalos de confiança, você pode usar esta calculadora on-line ou a binom.confint()função no binompacote em R. Por exemplo, para 0 sucessos em 25 tentativas, o código R seria:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Aqui bayesestá o intervalo de Jeffreys. (O argumento type="central"é necessário para obter o intervalo igual ).

Observe que você deve decidir qual dos três métodos deseja usar antes de calcular o intervalo. Olhar para todos os três e selecionar o menor, naturalmente oferecerá uma probabilidade de cobertura muito pequena.

Uma resposta rápida e aproximada

Como nota final, se você observar exatamente zero sucessos em seu n ensaios e apenas desejar um intervalo de confiança aproximado muito rápido, poderá usar a regra de três . Simplesmente divida o número 3 por n . No exemplo acima, n é 25, então o limite superior é 3/25 = 0,12 (o limite inferior é, obviamente, 0).

Karl Ove Hufthammer
fonte
Muito obrigado pela sua resposta. Imagine este exemplo da vida real: um arquiteto deve testar em um arranha-céu se todos os painéis de isolamento nos tetos estão instalados corretamente. Ele abre 25 painéis de teto em uma seleção aleatória de pisos e encontra acima de todos esses isolamentos. Assim, podemos concluir que a probabilidade real de ter um painel de isolamento é com 95% de certeza entre o IC [0,867 a 1], com base no intervalo de pontuação de Wilson?
Kasper
2
Eu não diria que você pode concluí-lo com '95% de certeza '(Google para' interpretação correta dos intervalos de confiança '). Além disso, isso se baseia na suposição de ensaios independentes com probabilidades de sucesso iguais, o que pode não ser realista aqui. Talvez os últimos painéis instalados tenham um risco maior de serem instalados incorretamente (a pessoa que os instalou estava ficando cansada / entediada). Ou talvez os primeiros fossem, já que a pessoa era menos experiente na época. De qualquer forma, se o arquiteto foi instruído a testar se todos os painéis estão instalados corretamente, ele deveria fazer seu trabalho, não apenas testar uma amostra!
Karl Ove Hufthammer
5
bayesusa o uniforme uniforme (em vez do de Jeffrey) quando os dois parâmetros de forma são 1. Enviei um e-mail para o mantenedor do pacote binom por curiosidade sobre as (des) vantagens do uniforme de Jeffrey vs. o uniforme anterior e ele me disse que uma nova versão usará o uniforme anterior como padrão. Portanto, não se pergunte se os resultados variam ligeiramente no futuro.
Cbeleites suporta Monica
3
Esta é uma excelente resposta. Ele transmite todas as informações importantes que você pode ler em artigos sobre o tema, mas de forma muito concisa e clara. Se eu pudesse votar duas vezes, eu faria.
SigmaX
6
O binconfmétodo Hmisctambém calcula esses intervalos. O padrão é o método Wilson.
SigmaX 18/06/2015
0

p±zα/2p(1p)/nπ0π0π0

|pπ0|p(1p)/n=0
(1+z02/n)π02+(2pz02/n)π0+p2=0

Jay Schyler Raadt
fonte
1
π0
π0pn
Aquele é o Agresti.
Nick Cox
@NickCox é uma obra diferente
Jay Schyler Raadt
1
Alan Agresti publicou vários textos. Eu acho que você está fazendo alusão a John Wiley, uma introdução à análise de dados categóricos (2ª edição 2007; 3ª edição agendada para publicação em outubro de 2018 e pode ter uma data de 2019).
Nick Cox