Estimando a probabilidade em um processo de Bernoulli por amostragem até 10 falhas: é tendenciosa?

15

Suponha que tenhamos um processo de Bernoulli com probabilidade de falha (que será pequena, digamos, ) a partir da qual coletamos amostras até encontrar falhas. Assim, estimamos a probabilidade de falha como que N é o número de amostras.qq0.0110q^:=10/NN

Pergunta : q^ uma estimativa parcial de q ? E, se sim, existe uma maneira de corrigi-lo?

Estou preocupado que insistir na última amostra é uma falha que influencia a estimativa.

becky
fonte
5
As respostas atuais param de fornecer o estimador imparcial de variância mínima . Veja a seção amostragem e estimativa de pontos do artigo da Wikipedia sobre a distribuição binomial negativa . (101)/(N1)
A. Webb

Respostas:

10

É verdade que é uma estimativa tendenciosa de no sentido em que , mas você não deve necessariamente deixar isso impedir você. Esse cenário exato pode ser usado como uma crítica contra a ideia de que devemos sempre usar estimadores imparciais, porque aqui o viés é mais um artefato do experimento específico que estamos realizando. Os dados parecem exatamente como teriam se tivéssemos escolhido o número de amostras com antecedência, então por que nossas inferências devem mudar?q^qE(q^)q

Curiosamente, se você coletar dados dessa maneira e depois anotar a função de probabilidade nos modelos binomial (tamanho fixo da amostra) e binomial negativo, você descobrirá que os dois são proporcionais entre si. Isso significa que é apenas a estimativa de probabilidade máxima comum no modelo binomial negativo, o que obviamente é uma estimativa perfeitamente razoável.q^

dsaxton
fonte
Ótimo! Parece (para meus propósitos) que esse viés não é um problema.
Becky
9

Não está insistindo que a última amostra é uma falha que influencia a estimativa, está assumindo o recíproco de N

Então no seu exemplo, mas E[10E[N10]=1q. Isso está próximo de comparar a média aritmética com a média harmônicaE[10N]q

A má notícia é que o viés pode aumentar à medida que diminui, embora não muito depois que q já é pequeno. A boa notícia é que o viés diminui à medida que o número necessário de falhas aumenta. Parece que se você precisar de falhas de f , o viés é delimitado acima por um fator multiplicativo de fqqf paraqpequeno; você não deseja essa abordagem quando parar após a primeira falha ff1q

Parando após falhas, com q = 0,01, você obterá E [ N10q=0.01mas E[10E[N10]=100, enquanto que comq=0,001você obteráE[NE[10N]0.011097q=0.001mas E[10E[N10]=1000. Um viés de aproximadamente10E[10N]0.001111 fator multiplicativo 109

Henry
fonte
7

Como um complemento à resposta do dsaxton, aqui são algumas simulações em R que mostram a distribuição de amostragem de Q quando k = 10, e q 0 = 0,02 :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Parece que , que é um pequeno viés em relação à variabilidade em q .E[q^]0.022q^

histogram of q_hat

Adrian
fonte
11
Isso é realmente útil. Nesse nível, não vale a pena me preocupar.
Becky
2
Você pode escrever esta simulação de forma mais concisa como10+rnbinom(10000,10,0.02)
A. Webb
@ A.Webb obrigado, esse é um bom ponto. Eu realmente estava reinventando a roda. Eu preciso ler? Rnbinom e depois vou editar meu post
Adrian
11
Isso seria 10/(10+rnbinom(10000,10,0.02)). A parametrização é em termos de número de sucessos / falhas em vez do número total de tentativas; portanto, você terá que adicionar k = 10 de volta. Observe que o estimador imparcial seria 9/(9+rnbinom(10000,10,0.02)), um a menos em numerador e denominador.
A. Webb