Estimativa de intervalo de confiança binomial - por que não é simétrica?

30

Utilizei o código r a seguir para estimar os intervalos de confiança de uma proporção binomial, porque entendo que isso substitui um "cálculo de potência" ao projetar receptores que operam projetos de curvas características, procurando detectar doenças em uma população.

n é 150, e acreditamos que a doença seja 25% prevalecente na população. Eu calculei os valores para 75% de sensibilidade e 90% de especificidade (porque é isso que as pessoas parecem fazer).

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

Também visitei este site:

http://statpages.org/confint.html

Que é uma página java que calcula intervalos binomiais de confiança e fornece a mesma resposta.

De qualquer forma, após essa configuração longa, quero perguntar por que os intervalos de confiança não são simétricos, por exemplo, a sensibilidade é

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

Desculpe se esta é uma pergunta estúpida, mas em todos os lugares que olho parece sugerir que elas serão simétricas, e um colega meu parece pensar que elas também serão.

Chris Beeley
fonte

Respostas:

20

Acredita-se que sejam simétricos porque muitas vezes é usada uma aproximação normal. Este funciona bem o suficiente no caso de p ficar em torno de 0,5. binom.testpor outro lado, relata intervalos "exatos" de Clopper-Pearson, que são baseados na distribuição F (veja aqui as fórmulas exatas de ambas as abordagens). Se implementarmos o intervalo Clopper-Pearson em R, seria algo como (veja a nota ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

Você vê no link e na implementação que a fórmula para o limite superior e o inferior são completamente diferentes. O único caso de um intervalo de confiança simétrico é quando p = 0,5. Usando as fórmulas do link e levando em consideração que, neste caso, , é fácil entender como isso acontece.n=2×x

Pessoalmente, entendi melhor olhando os intervalos de confiança com base em uma abordagem logística. Os dados binomiais geralmente são modelados usando uma função de link de logit, definida como:

logit(x)=log(x1x)

Essa função de link "mapeia" o termo do erro em uma regressão logística para uma distribuição normal. Como conseqüência, os intervalos de confiança na estrutura logística são simétricos em torno dos valores de logit, assim como na estrutura clássica de regressão linear. A transformação do logit é usada exatamente para permitir o uso de toda a teoria baseada na normalidade em torno da regressão linear.

Depois de fazer a transformação inversa:

logit1(x)=ex1+ex

Você obtém um intervalo assimétrico novamente. Agora, esses intervalos de confiança são realmente tendenciosos. A cobertura deles não é o que você esperaria, especialmente nos limites da distribuição binomial. No entanto, como ilustração, eles mostram por que é lógico que uma distribuição binomial tenha intervalos de confiança assimétricos.

Um exemplo em R:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

Nota : De fato, R usa a distribuição beta, mas isso é completamente equivalente e computacionalmente um pouco mais eficiente. A implementação em R é, portanto, diferente do que mostro aqui, mas fornece exatamente o mesmo resultado.

Joris Meys
fonte
2
Você realmente quis dizer que o logit "transforma a distribuição binomial em uma distribuição normal"?
whuber
@ whuber: boa captura da fórmula e boa captura da formulação. Praticamente não. Isso garante que os erros em uma regressão logística sigam a distribuição normal. Thx pela correção.
Joris Meys
Apenas uma breve nota técnica, a transformação "arcsine" é aquela que possui uma convergência mais rápida à normalidade do que a transformação logística. Defina (ondeXé o número de "sucessos" eNo número de tentativas), e você pode mostrar com o chamado "método delta" que a variação deYé aproximadamente constante (e independente deY, como deveria estar no exemplo). distribuição normal). Y=2πarcsinXNXNYY
probabilityislogic
O link que você fornece para "probabilidades exatas" está quebrado. Você tem um outro?
S. Kolassa - Restabelece Monica 11/11
@StephanKolassa Você também pode encontrar as fórmulas Clopper Pearson: en.wikipedia.org/wiki/…
Joris Meys
24

p=0.9p^=0.9pp^

Rob Hyndman
fonte
9

p

(p^p)/p(1p)=±zα/2

De qualquer forma, você pode obter todos os três em R com o seguinte:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

Observe que o método "wilson" é o mesmo intervalo de confiança usado pelo prop.test sem a correção da continuidade de Yates:

prop.test(29, 38, correct = FALSE)

Consulte aqui o manual SPLUS + R gratuito de Laura Thompson, que acompanha a Análise de dados categóricos da Agresti, na qual essas questões são discutidas em grande detalhe.


fonte
11
(+1) É bom que você cite o livro de Laura e inclua esse complemento de informações sobre os ICs de Wilson.
chl
2
Obrigado. Gostaria de salientar que o intervalo Wilson é discutido no artigo que @Joris referenciou.
9

Não são os intervalos de confiança simétricos para a distribuição binomial: assimetria não é forçado sobre nós, apesar de todas as razões já mencionadas. Os intervalos simétricos são geralmente considerados inferiores, pois

  1. Embora sejam numericamente simétricas, elas não são simétricas em probabilidade : ou seja, suas coberturas unilaterais diferem uma da outra. Esta - uma conseqüência necessária da possível assimetria da distribuição binomial - é o cerne da questão.

  2. Muitas vezes, um ponto de extremidade precisa ser irreal (menor que 0 ou maior que 1), como @Rob Hyndman aponta.

Dito isto, suspeito que os ICs numericamente simétricos possam ter algumas boas propriedades, como tendem a ser menores do que os probabilisticamente simétricos em algumas circunstâncias.

whuber
fonte
p^=k/n
@ CB Eu não sigo isso. Primeiro, um IC mais curto não terá necessariamente densidades iguais em cada extremidade. Segundo, o comentário sobre "não existe" não faz sentido para mim: o que significa "não existe"?
whuber
11
menor IC. Para calcular o IC mais curto para uma determinada cobertura, eu começaria na densidade máxima e aumentaria um pequeno passo para o lado em que a densidade é maior. Lá recebo a maior cobertura de confiança (para o pequeno passo que é). Amplio o ci repetidamente até ter a área desejada (cobertura). Se meus passos forem pequenos (infinitesimais), a densidade de ambos os lados será (aproximadamente) a mesma. Cometi um erro nesta estratégia?
Cbeleites suporta Monica
pp^=4/5=0.8pp<70%
11
p=0.8k{3,4,5}n=5pnkpk=4n=5Pr(p|n=5,k=4)p[0,1]Pr(k|n,p)p
6

p01np0.5

chl
fonte
2

Eu sei que já faz um tempo, mas eu pensei que iria gritar aqui. Dados n e p, é simples calcular a probabilidade de um número específico de sucessos diretamente usando a distribuição binomial. Pode-se então examinar a distribuição para verificar se ela não é simétrica. Abordará a simetria para np grande e n grande (1-p).

Pode-se acumular as probabilidades nas caudas para calcular um determinado IC. Dada a natureza discreta da distribuição, encontrar uma probabilidade específica em uma cauda (por exemplo, 2,5% para um IC de 95%) exigirá interpolação entre o número de sucessos. Com esse método, é possível calcular ICs diretamente, sem aproximação (além da interpolação necessária).

Dr. Eric
fonte