Clopper-Pearson para não matemáticos

12

Fiquei imaginando se alguém poderia me explicar a intuição além do IC de Clopper-Pearson para proporções.

Até onde eu sei, todo IC inclui uma variação nele. No entanto, para proporções, mesmo que minha proporção seja 0 ou 1 (0% ou 100%), o IC de Clopper-Pearson pode ser calculado. Tentei examinar as fórmulas e entendo que há algo com percentis da distribuição binomial e entendo que encontrar o IC envolve iterações, mas me perguntei se alguém poderia explicar a lógica e o racional em "palavras simples" ou com um mínimo de matemática. ?

user40850
fonte

Respostas:

22

Quando você diz que está acostumado a intervalos de confiança que contêm uma expressão para variação, pensa no caso gaussiano, no qual as informações sobre os dois parâmetros que caracterizam a população - uma sua média e a outra sua variação - são resumidas na amostra média e variação da amostra. A média da amostra estima a média da população, mas a precisão com que isso depende depende da variação da população, estimada por sua vez pela variação da amostra. A distribuição binomial, por outro lado, possui apenas um parâmetro - a probabilidade de sucesso em cada teste individual - e todas as informações fornecidas pela amostra sobre esse parâmetro estão resumidas no total não. sucessos de tantos ensaios independentes. A variação e média populacional são determinadas por esse parâmetro.

Você pode obter um intervalo de confiança de Clopper – Pearson 95% (por exemplo) para o parâmetro trabalhando diretamente com a função de massa de probabilidade binomial. Suponha que você observe x sucessos em n tentativas. O pmf éπxn

Pr(X=x)=(nx)πx(1-π)n-x

Aumente até que a probabilidade de x ou menos sucessos caia para 2,5%: esse é o seu limite superior. Diminua π até que a probabilidade de x ou mais sucessos caia para 2,5%: esse é o limite inferior. (Sugiro que você realmente tente fazer isso se não estiver claro ao ler sobre isso.) O que você está fazendo aqui é encontrar os valores de π que, quando tomados como uma hipótese nula, levariam a que (apenas) fossem rejeitados por dois teste com nível de significância de 5%. A longo prazo, os limites calculados dessa maneira cobrem o valor verdadeiro de π , seja ele qual for, pelo menos 95% do tempo.πxπxππ

Scortchi - Restabelecer Monica
fonte
+1. Isso pode merecer uma pergunta por si só, mas vou perguntar rapidamente aqui: para uma aplicação específica, gostaria de obter uma única medida de incerteza (algo que se comporte como erro padrão da média) para várias proporções. Eu sei que há vários procedimentos binomiais de IC, incluindo Clopper-Pearson. Faria sentido usar uma largura desse IC como uma medida de incerteza? Ou talvez largura / 1,96 / 2, para produzir exatamente SEM no limite gaussiano.
Ameba diz Reinstate Monica
1
@amoeba: Presumivelmente, você está pensando em amostras pequenas: (1) Você provavelmente desejaria algo como ICs Blaker-Spjotvoll em vez de ICs com base em um teste de área da cauda igual. (2) A distribuição de confiança é bastante instável, o que tornaria desagradável a largura de qualquer intervalo desagradável à cobertura estipulada.
Scortchi - Restabelecer Monica