Como calcular intervalos de confiança para proporções?

12

Considere um experimento que produz uma taxa Xi entre 0 e 1. Como essa taxa é obtida não deve ser relevante nesse contexto. Foi elaborado em uma versão anterior desta pergunta , mas removida para maior clareza após uma discussão sobre a meta .

Esse experimento é repetido n vezes, enquanto n é pequeno (cerca de 3-10). O Xi são assumidos como sendo independente e identicamente distribuído. A partir disso, estimamos a média calculando a média X¯ , mas como calcular um intervalo de confiança correspondente [U,V] ?

Ao usar a abordagem padrão para calcular intervalos de confiança, V às vezes é maior que 1. No entanto, minha intuição é que o intervalo de confiança correto ...

  1. ... deve estar dentro do intervalo 0 e 1
  2. ... deve ficar menor com o aumento n
  3. ... é da ordem do calculado usando a abordagem padrão
  4. ... é calculado por um método matematicamente correto

Esses não são requisitos absolutos, mas eu gostaria de entender pelo menos por que minha intuição está errada.

Cálculos com base em respostas existentes

A seguir, os intervalos de confiança resultantes das respostas existentes são comparados para {Xi}={0.985,0.986,0.935,0.890,0.999} .

Abordagem padrão (também conhecida como "Matemática escolar")

,σ2=0,0204, portanto, o intervalo de confiança de 99% é[0,865,1,053]X¯=0.959σ2=0.0204[0.865,1.053] . Isso contradiz a intuição 1.

Recorte (sugerido por @soakley nos comentários)

É fácil usar apenas a abordagem padrão e fornecer como resultado. Mas podemos fazer isso? Ainda não estou convencido de que o limite inferior permaneça constante (-> 4.)[0.865,1.000]

Modelo de Regressão Logística (sugerido por @Rose Hartman)

Dados transformados: Resultando em [ 0,173 , 7,87 ] , transformando-o novamente resulta em [ 0,543 , 0,999 ] . Obviamente, o 6,90 é um valor externo para os dados transformados, enquanto o 0,99 não é para os dados não transformados, resultando em um intervalo de confiança muito grande. (-> 3.){4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

Intervalo de confiança da proporção binomial (sugerido por @Tim)

A abordagem parece muito boa, mas infelizmente não se encaixa no experimento. Basta combinar os resultados e interpretá-los como um grande experimento repetido de Bernoulli, conforme sugerido por @ZahavaKor, resulta no seguinte:

de 5 * 1000 no total. Alimentando isso no Ajuste. A calculadora Wald fornece [ 0,9511 , 0,9657 ] . Este não parece ser realista, porque não um único X i está dentro desse intervalo! (-> 3.)985+986+890+935+999=479551000[0.9511,0.9657]Xi

Bootstrapping (sugerido por @soakley)

Com , temos 3125 permutações possíveis. Tomando o 3093n=5média das permutações, obtemos[0,91,0,99]. Looks nãoqueruim, embora eu esperaria um intervalo maior (-> 3.). No entanto, é por construção nunca maior que[min(Xi),max(X30933125=0.99[0.91,0.99] . Assim, para uma amostra pequena, ela crescerá mais do que diminuirá para aumentar n (-> 2.). Isso é pelo menos o que acontece com as amostras fornecidas acima.[min(Xi),max(Xi)]n

koalo
fonte
Você está correto em sua segunda abordagem. Não tenho certeza sobre o primeiro - não está claramente definido em termos estatísticos. Até onde eu sei, reprodutibilidade significa que o mesmo experimento é realizado por um pesquisador diferente e eles obtêm resultados semelhantes. Você precisa especificar seu objetivo com mais clareza, de preferência em termos de uma hipótese estatística referente ao parâmetro que você está tentando estimar. Apenas usar o termo "reprodutibilidade" é muito vago na minha opinião.
Zahava Kor 23/02
Você está certo, repetibilidade é o termo correto e não reprodutibilidade. Vou tentar construir uma definição em termos estatísticos.
23917 koalo
@ZahavaKor Removai meu exemplo subespecífico sobre repetibilidade e especifiquei meu aplicativo real na esperança de esclarecer meu problema e não confundir.
23917 koalo
Se você estiver realmente colhendo amostras do tamanho 1000, não aplicou corretamente a abordagem de reamostragem. Mas, com tantos dados, você não precisa reamostrar e deve obter bons resultados (ou seja, intervalos de confiança estreitos) com a abordagem binomial padrão, como você encontrou acima. Só porque seus pontos de dados individuais não estão no intervalo resultante, não significa que o intervalo esteja incorreto.
soakley 24/02
1
Bem, pense sobre isso. Você experimenta 10 itens e obtém 9 sucessos. Eu amostro 1000 e obtenho 900 sucessos. Quem terá a estimativa mais precisa da média? Tente usar a fórmula mencionada por Tim se a intuição ainda não estiver lá. Portanto, no último exemplo da sua pergunta, o tamanho da amostra não é 5, é 5000!
soakley

Respostas:

6

Primeiro, para esclarecer, o que você está lidando não é uma distribuição binomial, como sugere sua pergunta (você se refere a ela como um experimento de Bernoulli). As distribuições binomiais são discretas - o resultado é sucesso ou fracasso. Seu resultado é uma proporção sempre que você executa sua experiência , não um conjunto de sucessos e falhas nos quais você calcula uma proporção de resumo. Por esse motivo, os métodos para calcular um intervalo de confiança de proporção binomial descartarão muitas das suas informações. E, no entanto, você está certo de que é problemático tratar isso como se fosse distribuído normalmente, pois você pode obter um IC que ultrapassa o intervalo possível de sua variável.

Eu recomendo pensar sobre isso em termos de regressão logística. Execute um modelo de regressão logística com sua variável de proporção como resultado e sem preditores. A interceptação e seu IC fornecerão o que você precisa em logits e, em seguida, você poderá convertê-lo novamente em proporções. Você também pode fazer a conversão logística, calcular o IC e depois voltar à escala original. Meu python é terrível, mas eis como você pode fazer isso no R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

histograma de dados brutos

data_logits <- log(data/(1-data)) 
hist(data_logits)

histograma dos dados transformados do logit

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Aqui estão os limites inferior e superior em um IC de 99% para estes dados:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924
Rose Hartman
fonte
Isso soa como uma boa abordagem, no entanto, os resultados não são o que eu esperaria intuitivamente: o data_logits para 0.99,0.94,0.94 é 4.59,2.75,2,75, fornecendo um intervalo de confiança de [-2,73,9,47]. Transformar isso de volta dá [0,061,0,999] - muito maior do que eu esperaria.
23417 koalo
1
Por apenas três observações, você deve esperar um intervalo de confiança muito grande. Pelo seu histograma, parece que você tem muito mais que três observações - presumi que seu exemplo com 0.99,0.94,0.94 era apenas para ilustrar. Se o tamanho real da amostra for três, não recomendo o cálculo dos intervalos de confiança (ou médias).
Rose Hartman
O histograma acima vem do script python para ilustrar meu problema. Não sou capaz de obter tantas medidas com o experimento do mundo real. Pelo menos não para todas as combinações de parâmetros. Concordo que 3 pode ser muito pequeno e talvez 10 sejam possíveis na avaliação final, mas certamente não muito mais. Então, o que devo fazer para demonstrar que não tive apenas a sorte de obter uma única medição, mas que repetir o experimento não dá resultados completamente diferentes?
22417 koalo
@RoseHartman Essa é uma boa descrição clara, mas também seria bom ver seu método aplicado à amostra de dados (n = 5) na pergunta.
PM.
@scitamehtam Eu escrevi minha resposta antes do koalo fornecer os dados de exemplo e esclarecer que o tamanho da amostra seria 10 ou menos observações. Desde então, o koalo atualizou a pergunta original para incluir exemplos trabalhados de cada método de resposta com os dados n = 5, com muita ajuda.
Rose Hartman
3

Você pode tentar reamostrar / inicializar. Vejamos o caso simples que você mencionou.

Com 3 pontos de dados de 0,99, 0,94 e 0,94, você nem faria a reamostragem porque pode listar todas as 27 permutações possíveis, encontrar a média em cada caso e depois classificar as médias.

25/27=26/27=

n

A questão aqui: como criamos um intervalo de confiança para o parâmetro de um teste de permutação? fornece mais detalhes, incluindo algum código R.

Soakley
fonte
Conforme escrito em outro comentário, n não será "muito maior que 3", mas talvez n = 10 seja possível, se necessário. Embora essa abordagem garanta que meu intervalo de confiança não ultrapasse 1,0, parece subestimar consideravelmente o intervalo de confiança fornecido por outros métodos. De fato, nunca será maior que o intervalo [min, max].
314 koalo
Com que frequência você acha que a média estará fora de [min, max]?
soakley
Provavelmente raramente, mas isso também significa que, se o intervalo [min, max] for pequeno o suficiente para apoiar minhas reivindicações, posso esquecer o intervalo de confiança e apenas fornecer [min, max]? Na minha experiência, para amostras pequenas, o intervalo de confiança é bastante grande comparado a [min, max].
315 koalo
2

Intervalos binomiais de confiança têm sido objeto de debates estatísticos há muito tempo. Seu problema considera uma taxa inferior a 100%, mas se torna ainda mais problemático se usarmos 100%. Uma maneira perspicaz de fazer a pergunta é:

Dado que o sol nasceu sem falhar todos os dias nos últimos 2.000 anos, qual é a probabilidade de nascer amanhã?

p=1 .

Existem vários métodos para calcular essas caudas. Eu recomendo verificar a Wikipedia para obter as contas, ou, se você quiser apenas a resposta, procure uma calculadora de intervalo binomial como esta (que também tem mais explicações sobre a matemática por trás disso).

Tim
fonte
Isso está muito próximo do que estou procurando, mas as fórmulas parecem apenas calcular o intervalo de confiança para o resultado de uma única execução do meu experimento e não um intervalo de confiança para a média de vários experimentos.
22317 koalo
Não importa se você tem uma ou várias execuções, desde que o denominador (100 pacotes no seu exemplo) permaneça o mesmo em todas as execuções. Executar 3 experimentos de 100 cada é matematicamente o mesmo que executar um experimento com 300 pacotes, e você pode usar as fórmulas binomiais, mas com n = 300 e não n = 100. Se os denominadores não forem iguais, você precisará encontrar a média ponderada (ponderada pelos n's) e o novo n será a soma dos n's.
Zahava Kor 23/02
@ZahavaKor Como é muito longo para um comentário, adicionei uma edição à minha pergunta. Não digo que esteja errado, mas não corresponde ao meu entendimento atual.
22417 koalo
2

Uma abordagem bayesiana:

Encontre a distribuição beta exclusiva B que é induzido pelos experimentos (e um anterior, por exemplo, o anterior de Jeffreys), e depois escolhe o menor intervalo para o qual BA densidade de se integra à sua "confiança" desejada. É possível que haja várias soluções e, dependendo do seu anterior, a proporção média pode não estar no seu intervalo.

Neil G
fonte
+1, mesmo que esse não seja um intervalo de confiança, mas um intervalo credível. Você pode falar um pouco mais sobre como encontrar uma distribuição beta? Pode-se começar com um Beta simples anterior (1,1), mas como atualizá-lo, dado um conjunto de observações como, por exemplo, {0.985,0.986,0.935,0.890,0.999}? Geralmente, usa-se Beta como um conjugado ao Binomial, e aí a atualização para cadap=n/m é fácil, mas como atualizar dado psó?
Ameba diz Reinstate Monica