Funções discretas: cobertura do intervalo de confiança?

Como calcular a cobertura de intervalo discreto?

O que eu sei fazer:

Se eu tivesse um modelo contínuo, poderia definir um intervalo de confiança de 95% para cada um dos meus valores previstos e, em seguida, ver com que frequência os valores reais estavam dentro do intervalo de confiança. Eu acho que apenas 88% das vezes meu intervalo de confiança de 95% cobre os valores reais.

O que não sei fazer:

Como faço isso para um modelo discreto, como poisson ou gama-poisson? O que tenho para este modelo é o seguinte, fazendo uma única observação (de mais de 100.000 pretendo gerar :)

Número da observação: (arbitrário)

Valor previsto: 1,5

Probabilidade prevista de 0: 0,222

Probabilidade prevista de 1: 0,333

Probabilidade prevista de 2: 0,251

Probabilidade prevista de 3: 0,126

Probabilidade prevista de 4: 0,048

Probabilidade prevista de 5: 0,014 [e 5 ou mais é 0,019]

... (etc)

Probabilidade prevista de 100 (ou para algum valor irrealista): .000

Valor real (um número inteiro como "4")

Observe que, embora eu tenha fornecido os valores de Poisson acima, no modelo real, um valor previsto de 1,5 pode ter diferentes probabilidades previstas de 0,1, ... 100 através das observações.

Estou confuso com a discrição dos valores. Um "5" está obviamente fora do intervalo de 95%, pois há apenas 0,019 em 5 e acima, que é menor que 0,025. Mas haverá muitos 4's - individualmente, eles estão dentro, mas como eu avalio o número de 4's de maneira mais apropriada?

Por que eu me importo?

Os modelos que estou vendo foram criticados por serem precisos no nível agregado, mas fornecerem previsões individuais ruins. Quero ver quão piores são as más previsões individuais do que os intervalos de confiança inerentemente amplos previstos pelo modelo. Estou esperando que a cobertura empírica seja pior (por exemplo, eu acho que 88% dos valores estão dentro do intervalo de confiança de 95%), mas espero que seja um pouco pior.

confidence-interval discrete-data zbicyclist
fonte

Respostas:

Os intervalos de confiança de Neyman não tentam fornecer cobertura do parâmetro no caso de um intervalo específico. Em vez disso, eles fornecem cobertura sobre todos os valores possíveis de parâmetros a longo prazo. Em certo sentido, eles tentam ser globalmente precisos à custa da precisão local.

Intervalos de confiança para proporções binomiais oferecem uma ilustração clara desse problema. A avaliação neymaniana dos intervalos produz gráficos de cobertura irregulares como este, que são para intervalos de 95% de Clopper-Pearson para n = 10 ensaios binomiais:

Gráfico de cobertura de Clopper-Pearson

Existe uma maneira alternativa de fazer cobertura, que eu pessoalmente acho muito mais intuitivamente acessível e (portanto) útil. A cobertura por intervalos pode ser especificada condicionalmente ao resultado observado. Essa cobertura seria cobertura local. Aqui está um gráfico que mostra a cobertura local para três métodos diferentes de cálculo dos intervalos de confiança para proporções binomiais: Clopper-Pearson, as pontuações de Wilson e um método exato condicional que produz intervalos iguais aos intervalos Bayesianos com um uniforme anterior:

Cobertura condicional para três tipos de intervalo

Observe que o método 95% Clopper-Pearson oferece mais de 98% de cobertura local, mas os intervalos condicionais exatos são, bem, exatos.

Uma maneira de pensar na diferença entre os intervalos global e local é considerar o global como inversão dos testes de hipótese de Neyman-Pearson, em que o resultado é uma decisão tomada com base na consideração de taxas de erro de longo prazo para o atual experimente como membro do conjunto global de todos os experimentos que podem ser executados. Os intervalos locais são mais parecidos com a inversão dos testes de significância dos Pescadores, que produzem um valor de P que representa evidência contra o nulo dessa experiência em particular .

(Até onde eu sei, a distinção entre estatísticas globais e locais foi feita pela primeira vez em uma tese de mestrado não publicada de Claire F Leslie (1998). Falta de confiança: um estudo da supressão de certos contra-exemplos à teoria de Neyman-Pearson de inferência estatística com referência particular à teoria dos intervalos de confiança. Essa tese é realizada pela biblioteca Baillieu da Universidade de Melbourne.)

Michael Lew
fonte

Não acho que Claire Leslie tenha inventado a distinção global / local, mas ela deu uma descrição lindamente detalhada, com muitas referências. Eu também recomendo fortemente sua tese.