Como calcular um nível de confiança para uma distribuição de Poisson?

32

Gostaria de saber o quão confiante posso estar no meu . Alguém sabe como definir níveis de confiança superiores e inferiores para uma distribuição de Poisson?λ

  • Observações ( ) = 88n
  • Média da amostra ( ) = 47.18182λ

como seria a confiança de 95% para isso?

Travis
fonte
Você também pode considerar iniciar suas estimativas. Aqui está um breve tutorial sobre bootstrapping.
Mark T Patterson

Respostas:

27

Para Poisson, a média e a variância são . Se você deseja o intervalo de confiança em torno do lambda, pode calcular o erro padrão como .λλ/n

O intervalo de confiança de 95% é .λ^±1,96λ^/n

Nick Stauner
fonte
26
Isso é bom quando é grande, pois o Poisson é adequadamente aproximado por uma distribuição Normal. Para valores pequenos ou maior confiança, melhores intervalos estão disponíveis. Consulte math.mcmaster.ca/peter/s743/poissonalpha.html para dois deles, juntamente com uma análise de sua cobertura real. (Aqui, o intervalo "exato" é (45.7575, 48.6392), o intervalo "Pearson" é (45.7683, 48.639) e a aproximação Normal fornece (45.7467, 48.617): é um pouco baixo demais, mas próximo o suficiente, porquenλnλ=4152
4152.
4
Para outros confusos como eu: aqui está uma descrição de onde o 1,96 vem.
Mjibson
2
Como você calculou o intervalo exato para esse problema, considerando as informações fornecidas no site pela whuber? Não pude acompanhar porque esse site parece indicar apenas como proceder quando você tem uma amostra. Talvez eu apenas não esteja entendendo algo simples, mas minha distribuição tenha um valor muito menor de lambda (n), então não posso usar a aproximação normal e não sei como calcular o valor exato. Qualquer ajuda seria muito apreciada. Obrigado!
Aqui eles estão usando o desvio padrão da média, certo? Isso é SE = sig/sqrt(N) = sqrt(lam/N)? Isso faria sentido, uma vez que o desvio padrão de valores únicos signos informa sobre a probabilidade de extrair amostras aleatórias da distribuição de Poisson, enquanto o SEconforme definido acima nos diz sobre nossa confiança lam, dado o número de amostras que usamos para estimar isso.
AlexG 13/03
17

Este artigo discute 19 maneiras diferentes de calcular um intervalo de confiança para a média de uma distribuição de Poisson.

http://www.ine.pt/revstat/pdf/rs120203.pdf

Tom
fonte
2
Apesar da notificação do mod aqui, eu gosto dessa resposta como está, porque indica que há menos que um consenso geral sobre como avaliar um sistema de Poisson medido.
24618 Carl Witthoft
7

Além das respostas que outras pessoas forneceram, outra abordagem para esse problema é alcançada por meio de uma abordagem baseada em modelo. A abordagem do teorema do limite central é certamente válida, e as estimativas de inicialização oferecem muita proteção contra pequenos problemas de amostra e modo de especificação incorreta.

Para pura eficiência, é possível obter um melhor intervalo de confiança para usando uma abordagem baseada no modelo de regressão. Não há necessidade de passar por derivações, mas um cálculo simples em R é assim:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Esta é uma estimativa de intervalo não simétrica, lembre-se, já que o parâmetro natural do poisson glm é a taxa relativa de log! Essa é uma vantagem, pois há uma tendência para que os dados da contagem sejam inclinados para a direita.

A abordagem acima tem uma fórmula e é:

exp(registroλ^±1 1nλ^)

Esse intervalo de confiança é "eficiente" no sentido de que provém da estimativa de probabilidade máxima na escala natural de parâmetros (log) para dados de Poisson e fornece um intervalo de confiança mais rígido do que o baseado na escala de contagem, mantendo a cobertura nominal de 95% .

AdamO
fonte
+1 Acho que usaria um adjetivo diferente da eficiência (ou seja mais claro, você quer dizer eficiência computacional ou de código de golfe). o comentário do whuber aponta para um recurso que fornece intervalos exatos, e a abordagem glm também se baseia em resultados assintóticos. (É porém mais geral, então eu como recomendando essa abordagem também.)
Andy W
μ
11
Qual é a sua autoridade para essa fórmula? Podemos ter uma citação?
pauljohn32
@AndyW: o link não é válido para a simulação rápida
pauljohn32
11
@ pauljohn32 confira o texto de Casella Berger, especialmente na família exponencial, a taxa de log é o parâmetro natural.
Adamo
5

Dada a observação de uma distribuição de Poisson ,

  • o número de eventos contados é n.
  • λσ2

Passo a passo,

  • λ^=nλ
  • n>20σ

stderr=σ=λn

Agora, o intervalo de confiança de 95% é,

Eu=λ^±1,96 stderr=n±1,96 n

[Editado] Alguns cálculos baseados nos dados da pergunta,

  • λ

    Estou fazendo essa suposição, pois a pergunta original não fornece nenhum contexto sobre o experimento ou como os dados foram obtidos (o que é da maior importância ao manipular dados estatísticos).

  • O intervalo de confiança de 95% é, para o caso particular,

Eu=λ±1,96 stderr=λ±1,96 λ=47.18182±1,96 47.18182[33,72,60,64]

Portanto, como a medida (n = 88 eventos) está fora do intervalo de confiança de 95%, concluímos que,

  1. O processo não segue um processo de Poisson ou,

  2. λ


λ/n

jose.angel.jimenez
fonte
11
λnλ
2
λλ
2
Acredito que a resposta de jose.angel.jiminez acima esteja incorreta e decorra da leitura incorreta da pergunta original. O pôster original dizia "Observações (n) = 88" - esse era o número de intervalos de tempo observados, não o número de eventos observados em geral, ou por intervalo. O número médio de eventos por intervalo, sobre a amostra de 88 intervalos de observação, é o lambda fornecido pelo pôster original. (Eu teria incluído isso como um comentário na postagem de Jose, mas sou muito novo no site para poder comentar.) #
User44436 20/15/15
@ user44436 adicionou uma resposta que deveria ser um comentário. Eu o repovoo como um comentário para que você possa vê-lo e, como uma não resposta, ele pode ser removido: ------- Eu acredito que a resposta de Joseph acima está incorreta e decorre da leitura incorreta da pergunta original. O pôster original dizia Observações (n) = 88 - esse era o número de intervalos de tempo observados, não o número de eventos observados no geral ou por intervalo. O número médio de eventos por intervalo na amostra de 88 intervalos de observação é o lambda fornecido pelo pôster original.
Mörre