Eu estava lendo um livro de estatísticas de nível de entrada. No capítulo sobre estimativa de máxima verossimilhança da proporção de sucesso nos dados com distribuição binomial, ele forneceu uma fórmula para calcular um intervalo de confiança e depois mencionou indiferentemente
Considere sua probabilidade de cobertura real, ou seja, a probabilidade de o método produzir um intervalo que captura o valor verdadeiro do parâmetro. Isso pode ser um pouco menor que o valor nominal.
E continua com uma sugestão para construir um "intervalo de confiança" alternativo, que presumivelmente contém a probabilidade real de cobertura.
Fui confrontado com a idéia de probabilidade de cobertura nominal e real pela primeira vez. Fazendo o meu caminho através de perguntas antigas aqui, acho que entendi: existem dois conceitos diferentes que chamamos de probabilidade, o primeiro sendo o quão provável é que um evento ainda não ocorrido produza um determinado resultado, e o segundo é quão provável é que o palpite de um agente observador para o resultado de um evento já ocorrido seja verdadeiro. Parecia também que os intervalos de confiança medem apenas o primeiro tipo de probabilidade, e que algo chamado "intervalos credíveis" medem o segundo tipo de probabilidade. Eu suponho sumariamente que intervalos de confiança são os que calculam "probabilidade de cobertura nominal" e intervalos credíveis são os que cobrem "probabilidade de cobertura real".
Mas talvez eu tenha interpretado mal o livro (não está totalmente claro se os diferentes métodos de cálculo que ele oferece são para um intervalo de confiança e um intervalo credível, ou para dois tipos diferentes de intervalo de confiança) ou as outras fontes que eu costumava acessar. meu entendimento atual. Especialmente um comentário que recebi sobre outra pergunta,
Intervalos de confiança para freqüentista, credível para Bayesiano
me fez duvidar das minhas conclusões, pois o livro não descreveu um método bayesiano nesse capítulo.
Portanto, esclareça se meu entendimento está correto ou se cometi um erro lógico no caminho.
Respostas:
Em geral, a probabilidade real de cobertura nunca será igual à probabilidade nominal quando você estiver trabalhando com uma distribuição discreta.
O intervalo de confiança é definido como uma função dos dados. Se você estiver trabalhando com a distribuição binomial, há apenas muitos resultados possíveis finitos ( para ser mais preciso); portanto, existem apenas muitos intervalos possíveis de confiança. Como o parâmetro é contínuo, é muito fácil ver que a probabilidade de cobertura (que é uma função de ) não pode ser melhor que aproximadamente 95% (ou o que for).p pn+1 p p
Geralmente, é verdade que os métodos baseados no CLT terão probabilidades de cobertura abaixo do valor nominal, mas outros métodos podem ser mais conservadores.
fonte
Não tem nada a ver com intervalos credíveis bayesianos versus intervalos de confiança freqüentes. Um intervalo de confiança de 95% (digamos) é definido como oferecendo pelo menos 95% de cobertura, independentemente do valor real do parâmetro . Portanto, quando a cobertura nominal é de 95%, a cobertura real pode ser de 97% quando , 96,5% quando , mas para nenhum valor de é menor que 95%. A questão (ou seja, uma discrepância entre a cobertura nominal e a real) surge com distribuições discretas como o binômio.π = π 1 π = π 2 ππ π=π1 π=π2 π
Como ilustração, considere observar sucessos de tentativas binomiais com probabilidade desconhecida de sucesso : A primeira coluna mostra os possíveis valores observados de . A segunda mostra o exacto † superior ‡ confiança ligadox n π
A cobertura nominal é alcançada somente quando os valores dos parâmetros verdadeiros coincidem com os limites superiores obtidos.
[Acabei de reler sua pergunta e notei que o autor diz que o real pode ser menor que a probabilidade de cobertura nominal. Acho que eles estão falando de um método aproximado para calcular o intervalo de confiança, embora o que eu disse acima ainda continue. O gráfico pode sugerir a geração de um nível de confiança médio de cerca de mas a média dos valores de um parâmetro desconhecido?]98%
† Exato no sentido de que a cobertura real nunca é menor que a cobertura nominal para qualquer valor de , e igual a alguns valores de - @ senso de Unwisdom, não @ Stephane.ππ π
‡ Intervalos com limites superior e inferior são mais comumente usados; mas um pouco mais complicado de explicar, e há apenas um intervalo exato a ser considerado com apenas um limite superior. (Ver Blaker (2000), "Curvas de confiança e intervalos de confiança exatos aprimorados para distribuições discretas", Canadian Journal of Statistics , 28 , 4 e as referências.)
fonte
Eu acho que a diferença é realmente sobre o uso de aproximações feitas ao calcular intervalos de confiança. Por exemplo, se usarmos o IC razoavelmente padrão de
Podemos chamar isso de "intervalo de confiança de 95%". No entanto, geralmente é o caso em que várias aproximações são feitas aqui. Se não fizermos as aproximações, podemos calcular a cobertura real. Uma situação típica está subestimando o erro padrão. Então os intervalos são muito estreitos para capturar o valor verdadeiro com 95% de probabilidade. Eles podem capturar apenas o valor verdadeiro com, digamos, 85% de probabilidade. A probabilidade de "cobertura real" pode ser calculada usando uma simulação de monte carlo de algum tipo (por exemplo, gerar conjuntos de dados de amostra usando um valor verdadeiro escolhido, depois calcular IC95% para cada um e descobrir que realmente continha o valor verdadeiro).8501000 850
fonte