Calcular “probabilidade real de cobertura” é o mesmo que calcular um “intervalo credível”?

9

Eu estava lendo um livro de estatísticas de nível de entrada. No capítulo sobre estimativa de máxima verossimilhança da proporção de sucesso nos dados com distribuição binomial, ele forneceu uma fórmula para calcular um intervalo de confiança e depois mencionou indiferentemente

Considere sua probabilidade de cobertura real, ou seja, a probabilidade de o método produzir um intervalo que captura o valor verdadeiro do parâmetro. Isso pode ser um pouco menor que o valor nominal.

E continua com uma sugestão para construir um "intervalo de confiança" alternativo, que presumivelmente contém a probabilidade real de cobertura.

Fui confrontado com a idéia de probabilidade de cobertura nominal e real pela primeira vez. Fazendo o meu caminho através de perguntas antigas aqui, acho que entendi: existem dois conceitos diferentes que chamamos de probabilidade, o primeiro sendo o quão provável é que um evento ainda não ocorrido produza um determinado resultado, e o segundo é quão provável é que o palpite de um agente observador para o resultado de um evento já ocorrido seja verdadeiro. Parecia também que os intervalos de confiança medem apenas o primeiro tipo de probabilidade, e que algo chamado "intervalos credíveis" medem o segundo tipo de probabilidade. Eu suponho sumariamente que intervalos de confiança são os que calculam "probabilidade de cobertura nominal" e intervalos credíveis são os que cobrem "probabilidade de cobertura real".

Mas talvez eu tenha interpretado mal o livro (não está totalmente claro se os diferentes métodos de cálculo que ele oferece são para um intervalo de confiança e um intervalo credível, ou para dois tipos diferentes de intervalo de confiança) ou as outras fontes que eu costumava acessar. meu entendimento atual. Especialmente um comentário que recebi sobre outra pergunta,

Intervalos de confiança para freqüentista, credível para Bayesiano

me fez duvidar das minhas conclusões, pois o livro não descreveu um método bayesiano nesse capítulo.

Portanto, esclareça se meu entendimento está correto ou se cometi um erro lógico no caminho.

rumtscho
fonte
A probabilidade de cobertura nominal é a probabilidade de cobertura "alvo": a que tentamos atingir quando derivamos um método que fornece um intervalo de confiança. A cobertura real é a cobertura "verdadeira". Algumas pessoas dizem que o intervalo de confiança é exato quando a cobertura real é igual à cobertura nominal. Scotchi e Unwisdom mencionaram que o intervalo de confiança nunca é exato para dados discretos. Outro exemplo é quando usamos um intervalo de confiança assintótico: é exato apenas quando . Entendo perfeitamente sua idéia, porque "real" também é sinônimo de "presente". n
Stéphane Laurent

Respostas:

4

Em geral, a probabilidade real de cobertura nunca será igual à probabilidade nominal quando você estiver trabalhando com uma distribuição discreta.

O intervalo de confiança é definido como uma função dos dados. Se você estiver trabalhando com a distribuição binomial, há apenas muitos resultados possíveis finitos ( para ser mais preciso); portanto, existem apenas muitos intervalos possíveis de confiança. Como o parâmetro é contínuo, é muito fácil ver que a probabilidade de cobertura (que é uma função de ) não pode ser melhor que aproximadamente 95% (ou o que for).p pn+1pp

Geralmente, é verdade que os métodos baseados no CLT terão probabilidades de cobertura abaixo do valor nominal, mas outros métodos podem ser mais conservadores.

Insensatez
fonte
11
Aqui está uma declaração formal útil da definição: Dado um espaço de amostra e um parâmetro desconhecido , um procedimento de confiança consiste em um par de funções modo queO lado esquerdo desta expressão é (observe que isso depende de θ) e o RHS é o nível de confiança nominal . Se o menor (acima de ) do LHS for igual ao RHS, o procedimento será exato . q 1 - α L L : ohms R P [ { co ohms | [ L ( ω ) , U ( ω ) ] θ } ]Ω,F,Pθ1α LU:ΩRprobabilidade de cobertura Ω
P[{ωΩ|[L(ω),U(ω)]θ}]1α.
coverage probabilityΩ
Unwisdom 07/02
8

Não tem nada a ver com intervalos credíveis bayesianos versus intervalos de confiança freqüentes. Um intervalo de confiança de 95% (digamos) é definido como oferecendo pelo menos 95% de cobertura, independentemente do valor real do parâmetro . Portanto, quando a cobertura nominal é de 95%, a cobertura real pode ser de 97% quando , 96,5% quando , mas para nenhum valor de é menor que 95%. A questão (ou seja, uma discrepância entre a cobertura nominal e a real) surge com distribuições discretas como o binômio.π = π 1 π = π 2 πππ=π1π=π2π

Como ilustração, considere observar sucessos de tentativas binomiais com probabilidade desconhecida de sucesso : A primeira coluna mostra os possíveis valores observados de . A segunda mostra o exacto superior confiança ligadoxnπ

xπUPr(X=x|π=0.7)I(πU0.7)00.39303780.000729010.58180340.010206020.72866160.059535130.84683890.185220140.93715010.324135150.99148760.302526161.00000000.1176491
x π U = π : [ Pr ( X > x | π ) = 0,95 ] π = 0,7 x 1 0,989065 π95%πU=π:[Pr(X>x|π)=0.95]que você calcularia em cada caso. Agora suponha : a terceira coluna mostra a probabilidade de cada valor observado de sob essa suposição; o quarto mostra para quais casos o intervalo de confiança calculado cobre o valor verdadeiro do parâmetro, sinalizando-os com . Se você somar as probabilidades para os casos em que o intervalo de confiança cobre o valor verdadeiro, você obtém a cobertura real, . Para diferentes valores reais de , a cobertura real será diferente:π=0.7x10.989065π

coberturas

A cobertura nominal é alcançada somente quando os valores dos parâmetros verdadeiros coincidem com os limites superiores obtidos.

[Acabei de reler sua pergunta e notei que o autor diz que o real pode ser menor que a probabilidade de cobertura nominal. Acho que eles estão falando de um método aproximado para calcular o intervalo de confiança, embora o que eu disse acima ainda continue. O gráfico pode sugerir a geração de um nível de confiança médio de cerca de mas a média dos valores de um parâmetro desconhecido?]98%

† Exato no sentido de que a cobertura real nunca é menor que a cobertura nominal para qualquer valor de , e igual a alguns valores de - @ senso de Unwisdom, não @ Stephane.πππ

‡ Intervalos com limites superior e inferior são mais comumente usados; mas um pouco mais complicado de explicar, e há apenas um intervalo exato a ser considerado com apenas um limite superior. (Ver Blaker (2000), "Curvas de confiança e intervalos de confiança exatos aprimorados para distribuições discretas", Canadian Journal of Statistics , 28 , 4 e as referências.)

Scortchi - Restabelecer Monica
fonte
Obrigado por responder. Agora que sei qual é a probabilidade real de cobertura, você sabe por que o usuário nesta pergunta foi enviado a perguntas que explicam a diferença entre intervalos credíveis e de confiança? Foi aqui que tive a ideia de que o problema de cobertura real / nominal. a dualidade está relacionada. stats.stackexchange.com/questions/63922/…
rumtscho 11/02
Provavelmente porque o OP apenas fornece um link para onde ele viu os termos "nominal" e "real" (em vez de resumir ou citar isso na pergunta, como você fez), e depois dedica o restante da pergunta à interpretação errônea de use nesse contexto.
Scortchi - Restabelece Monica
1

Eu acho que a diferença é realmente sobre o uso de aproximações feitas ao calcular intervalos de confiança. Por exemplo, se usarmos o IC razoavelmente padrão de

estimate±1.96×estimated standard error

Podemos chamar isso de "intervalo de confiança de 95%". No entanto, geralmente é o caso em que várias aproximações são feitas aqui. Se não fizermos as aproximações, podemos calcular a cobertura real. Uma situação típica está subestimando o erro padrão. Então os intervalos são muito estreitos para capturar o valor verdadeiro com 95% de probabilidade. Eles podem capturar apenas o valor verdadeiro com, digamos, 85% de probabilidade. A probabilidade de "cobertura real" pode ser calculada usando uma simulação de monte carlo de algum tipo (por exemplo, gerar conjuntos de dados de amostra usando um valor verdadeiro escolhido, depois calcular IC95% para cada um e descobrir que realmente continha o valor verdadeiro).8501000850

probabilityislogic
fonte