Nas estatísticas freqüentistas, há uma estreita conexão entre intervalos de confiança e testes. Usando inferência sobre na distribuição como exemplo, o intervalo de confiança contém todos os valores de que não são rejeitados pelo teste no nível de significância .N ( μ , σ 2 ) 1 - α μtα
Intervalos de confiança freqüentistas são, nesse sentido, testes invertidos. (Aliás, isso significa que podemos interpretar o valor- como o menor valor de para o qual o valor nulo do parâmetro seria incluído no intervalo de confiança . Acho que isso pode ser uma maneira útil de explique o que os valores de realmente são para pessoas que conhecem um pouco de estatística.)α 1 - α p
Lendo sobre o fundamento teórico da decisão de regiões credíveis bayesianas , comecei a me perguntar se há uma conexão / equivalência similar entre regiões credíveis e testes bayesianos.
- Existe uma conexão geral?
- Se não houver conexão geral, existem exemplos em que há uma conexão?
- Se não houver conexão geral, como podemos ver isso?
Respostas:
Eu consegui criar um exemplo em que existe uma conexão. Parece depender muito da minha escolha da função de perda e do uso de hipóteses compostas.
Começo com um exemplo geral, que é seguido por um caso especial simples envolvendo a distribuição normal.
Exemplo geral
Para um parâmetro desconhecido , deixe ser o espaço do parâmetro e considere a hipótese versus a alternativa .Θ θ ∈ Θ 0 θ ∈ Θ 1 = Θ ∖ Θ 0θ Θ θ ∈ Θ0 0 θ ∈ Θ1= Θ ∖ Θ0 0
Vamos ser uma função de teste, usando a notação em Xi'an 's A Bayesian escolha (que é uma espécie de trás para que eu pelo menos estou acostumado a), de modo que nós rejeitamos se e aceito se . Considere a função de perda O teste de Bayes é entãoΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , se φ = I Θ 0 ( θ ) a 0 , se θ ∈ Θ 0 e φ = 0 a 1 , se θ ∈ Θ 1 e φ = 1. φ π ( x ) =φ Θ0 0 φ = 0 Θ0 0 φ = 1
Tome e . A hipótese nula é aceita se .a 1 = 1 - α Θ 0 P ( θ ∈ Θ 0 | x ) ≥ 1 - αuma0 0= α ≤ 0,5 uma1= 1 - α Θ0 0 P ( θ ∈ Θ0 0| x)≥1-α
Agora, uma região credível é uma região tal que . Assim, por definição, se é tal que , pode ser uma região credível apenas se . P ( Θ c | x ) ≥ 1 - ct Θ 0 P ( q ∈ Θ 0 | x ) ≥ 1 - ct Θ c P ( Θ 0 ∩ Θ c | x ) > 0Θc P ( Θc| x)≥1-α Θ0 0 P ( θ ∈ Θ0 0| x)≥1-α Θc P ( Θ0 0∩ Θc| x)>0
Aceitamos a hipótese nula se um somente se cada região -credible contiver um subconjunto não nulo de .q 01 - α Θ0 0
Um caso especial mais simples
Para ilustrar melhor que tipo de teste temos no exemplo acima, considere o seguinte caso especial.
Seja com . Defina , e , para que desejemos testar se .θ ∼ N ( 0 , 1 ) Θ = R Θ 0 = ( - ∞ , 0 ] Θ 1 = ( 0 , ∞ ) θ ≤ 0x ∼ N ( θ , 1 ) θ ∼ N ( 0 , 1 ) Θ = R Θ0 0= ( - ∞ , 0 ] Θ1= ( 0 , ∞ ) θ ≤ 0
Os cálculos padrão fornecem onde é o cdf normal padrão.Φ(⋅)
Seja tal que . é aceito quando . & Phi; ( z 1 - α ) = 1 - α q 0 - x / √z1 - α Φ ( z1 - α) = 1 - α Θ0 0 −x/2–√>z1−α
Isso equivale a aceitar quandoPara , é, portanto, rejeitado quando .α=0,05Θ0x>-2,33x≤2–√zα. α=0.05 Θ0 x>−2.33
Se, em vez disso, usarmos o , será rejeitado quando .Θ 0 x > - 2,33 - νθ∼N(ν, 1 ) Θ0 0 x > - 2,33 - ν
Comentários
A função de perda acima, onde pensamos que aceitar falsamente a hipótese nula é pior do que rejeitá-la falsamente, pode à primeira vista parecer um pouco artificial. No entanto, pode ser de uso considerável em situações em que os "falsos negativos" podem ser onerosos, por exemplo, ao rastrear doenças contagiosas ou terroristas perigosas.
A condição de que todas as regiões credíveis devem conter uma parte de é na verdade um pouco mais forte do que eu esperava: no caso freqüentista, a correspondência é entre um único teste e um único intervalo de confiança e não entre um único teste e todos os intervalos . 1 - α 1 - αΘ0 0 1 - α 1 - α
fonte
Michael e Fraijo sugeriram que simplesmente verificar se o valor do parâmetro de interesse estava contido em alguma região credível como o equivalente bayesiano de inverter os intervalos de confiança. Fiquei um pouco cético sobre isso no começo, já que não era óbvio para mim que esse procedimento realmente resultou em um teste bayesiano (no sentido usual).
Acontece que sim - pelo menos se você estiver disposto a aceitar um certo tipo de função de perda. Muito obrigado a Zen , que forneceu referências a dois documentos que estabelecem uma conexão entre regiões HPD e testes de hipóteses:
Vou tentar resumi-los aqui, para referência futura. Analogamente ao exemplo da pergunta original, tratarei do caso especial em que as hipóteses são onde é o espaço do parâmetro.Θ
Pereira & Stern propuseram um método para testar essas hipóteses sem ter que colocar probabilidades anteriores em eΘ 1Θ0 0 Θ1 .
Vamos denotar a função de densidade de e definirθ T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π( ⋅ ) θ
Isso significa que é uma região HPD , com credibilidade .T( X ) P( θ ∈ T( X ) | x )
O teste de Pereira-Stern rejeita quando é "pequeno" ( , digamos). Para um posterior unimodal, isso significa que está distante nas caudas do posterior, tornando esse critério um pouco semelhante ao uso de valores-p. Em outras palavras, é rejeitado no nível se e somente se não estiver contido na região HPD . P ( θ ∉ T ( x ) | x ) < 0,05 θ 0 Θ 0 5 % 95 %Θ0 0 P( θ ∉ T( X ) | x ) < 0,05 θ0 0 Θ0 0 5 % 95 %
Deixe a função de teste ser se for aceito e se for rejeitado. Madruga et al. propôs a função de perda com .1 Θ 0 0 Θ 0 L ( θ , φ , x ) = { a ( 1 - I ( θ ∈ T ( x ) ) , se φ ( x ) = 0 b + c I ( θ ∈ ( T ( x )) ) , se φ ( x ) = 1 , umφ 1 Θ0 0 0 Θ0
A minimização da perda esperada leva ao teste de Pereira-Stern, onde é rejeitado seΘ0 P(θ∉T(x)|x)<(b+c)/(a+c).
Até agora, está tudo bem. O teste de Pereira-Stern é equivalente a verificar se está em uma região HPD e existe uma função de perda que gera esse teste, o que significa que ele é fundamentado na teoria da decisão.θ0
A parte controversa, porém, é que a função de perda depende dex . Embora essas funções de perda tenham aparecido na literatura algumas vezes, elas não parecem ser geralmente aceitas como muito razoáveis.
Para uma leitura mais aprofundada sobre esse tópico, consulte uma lista de artigos que citam Madruga et al. artigo .
Atualização em outubro de 2012:
Eu não estava completamente satisfeito com a função de perda acima, pois sua dependência de torna a tomada de decisão mais subjetiva do que eu gostaria. Passei mais tempo pensando sobre esse problema e acabei escrevendo uma breve nota sobre ele, postada no arXiv hoje cedo .x
Seja denota a função quantil posterior de , de modo que . Em vez de conjuntos de HPD, consideramos o intervalo central (de cauda igual) . Testar usando esse intervalo pode ser justificado na estrutura teórica da decisão sem uma função de perda que dependa de .qα(θ|x) θ P(θ≤qα(θ|x))=α (qα/2(θ|x),q1−α/2(θ|x)) Θ0 x
O truque é reformular o problema de testar a hipótese nula ponto como um problema de três decisões com conclusões direcionais. é então testado contra e .Θ0={θ0} Θ0 Θ−1={θ:θ<θ0} Θ1={θ:θ>θ0}
Deixe a função de teste se aceitarmos (observe que esta notação é o oposto do usado acima!). Acontece que, sob a função de perda ponderada dos Bayes teste é rejeitar se não estiver no intervalo central.φ=i Θi 0−1
Isso parece uma função de perda bastante razoável para mim. Discuto essa perda, a perda e o teste de Madruga-Esteves-Wechsler usando conjuntos credíveis mais adiante no manuscrito no arXiv.
fonte
Por coincidência, li seu artigo sobre o arXiv antes de chegar a esta pergunta e já escrevi uma entrada de blog sobre ele ( prevista para 08 de outubro ). Para resumir, acho sua construção de interesse teórico, mas também acho que é artificial demais para ser recomendado, esp. como ele não parece resolver o problema de teste bayesiano da hipótese do ponto nulo, que tradicionalmente exige que se coloque alguma massa anterior no valor do parâmetro ponto nulo.
Ou seja, a solução que você propõe acima (na atualização de outubro) e como o Teorema 2 no seu artigo arXiv não é um procedimento de teste válido, pois usa três valores, em vez dos dois valores que correspondem a aceitar / rejeitar. Da mesma forma, a função de perda usada no Teorema 3 (não reproduzida aqui) equivale a testar uma hipótese unilateral, , em vez de uma hipótese sem nulo .φ H0:θ≤θ0 H0:θ=θ0
Minha principal questão, no entanto, é que me parece que o Teorema 3 e o Teorema 4 no seu artigo arXiv não são válidos quando é uma hipótese nula, ou seja, quando , sem massa anterior.H0 Θ0={θ0}
fonte
Você pode usar um intervalo credível (ou região HPD) para o teste de hipótese bayesiana. Eu não acho que é comum; no entanto, para ser justo, não vejo muito nem uso na prática testes de hipóteses bayesianas formais. Os fatores de Bayes são ocasionalmente usados (e no "Bayesian Core" de Robert, um tanto elogiado) nos testes de hipótese estabelecidos.
fonte
Uma região credível é apenas uma região em que a integral da densidade posterior sobre a região é uma probabilidade especificada, por exemplo, 0,95. Uma maneira de formar um teste de hipótese bayesiano é verificar se os valores hipotéticos nulos dos parâmetros se enquadram na região credível. Dessa maneira, podemos ter uma correspondência 1-1 semelhante entre testes de hipóteses e regiões confiáveis, assim como os freqüentadores fazem com intervalos de confiança e testes de hipóteses. Mas essa não é a única maneira de realizar testes de hipóteses.
fonte
Deixe-me explicar como eu consegui ler a resposta de Tim .
É baseado nas visualizações de tabela com hipótese (parâmetro estimado) em colunas e observações nas linhas.
Na primeira tabela, você tem probabilidades de colas somadas a 1, ou seja, são probabilidades condicionais, cuja condição, ao entrar no evento da coluna é fornecida na linha inferior, chamada 'prior'. Na última tabela, as linhas somam de maneira semelhante a 1 e no meio você tem probabilidades conjuntas, ou seja, probabilidades condicionais encontradas na primeira e na última tabela vezes a probabilidade da condição, as anteriores.
As tabelas basicamente executam a transformação bayesiana: na primeira tabela, você fornece pdf das observações (linhas) em todas as colunas, define o anterior para esta hipótese (sim, a coluna de hipótese é um pdf de observações sob essa hipótese), você faz isso pois cada coluna e tabela o leva primeiro para a tabela de probabilidades conjuntas e, depois, para as probabilidades de sua hipótese, condicionadas pelas observações.
Como recebi da resposta de Tim (corrija-me se estiver errado), a abordagem Intervalo crítico analisa a primeira tabela. Ou seja, uma vez concluída a experiência, conhecemos a linha da tabela (cara ou coroa no meu exemplo, mas você pode fazer experiências mais complexas, como 100 lançamentos de moedas e obter uma tabela com 2 ^ 100 linhas). O frequencialista examina suas colunas, o que, como eu disse, é uma distribuição de possíveis resultados sob a condição de que a hipótese seja verdadeira (por exemplo, a moeda é justa no meu exemplo) e rejeita as hipóteses (colunas) que forneceram um valor de probabilidade muito baixo em a linha observada.
Bayesianista primeiro ajusta as probabilidades, convertendo colunas em linhas e olha para a tabela 3, encontra a linha do resultado observado. Como também é um pdf, ele passa pela linha de resultados do experimento e escolhe a hipótese com maior probabilidade até que seu bolso de 95% de credibilidade esteja cheio. O restante da hipótese é rejeitado.
Como é que você gosta? Ainda estou no processo de aprendizado e o gráfico parece útil para mim. Acredito que estou no caminho certo, pois um usuário respeitável dá a mesma imagem, quando analisa a diferença de duas abordagens . Propus uma visão gráfica da mecânica da seleção de hipóteses.
Encorajo todos a lerem a última resposta de Keith, mas minha imagem da mecânica dos testes de hipóteses pode dizer imediatamente que o freqüentista não olha para a outra hipótese quando verifica a atual, enquanto a consideração de hipóteses de alta credibilidade afeta fortemente a recepção / rejeição de outras hipóteses em bayesiana. análise porque se você tem uma única hipótese que ocorre 95% das vezes sob os dados observados, lança todas as outras hipóteses imediatamente, independentemente de quão bem os dados se ajustem a elas. Vamos deixar de lado a análise do poder estatístico, que contrasta duas hipóteses baseadas em seus intervalos de confiança.
Mas, parece que vi a semelhança entre duas abordagens: elas parecem estar conectadas através da
P(A | B) > P(A) <=> P(B|A) > P(B)
propriedade . Basicamente, se houver uma dependência entre A e B, ele aparecerá como correlação nas tabelas freq e bayesiana. Então, fazendo um teste de hipótese se correlaciona com o outro, eles devem fornecer os mesmos resultados. Estudar as raízes da correlação provavelmente fornecerá a conexão entre os dois. Na minha pergunta, eu realmente pergunto por que a diferença está em vez da correlação absoluta?fonte