Qual é a conexão entre regiões credíveis e testes de hipóteses bayesianas?

38

Nas estatísticas freqüentistas, há uma estreita conexão entre intervalos de confiança e testes. Usando inferência sobre na distribuição como exemplo, o intervalo de confiança contém todos os valores de que não são rejeitados pelo teste no nível de significância .N ( μ , σ 2 ) 1 - αμN(μ,σ2)1α μtα

x¯±tα/2(n1)s/n
μtα

Intervalos de confiança freqüentistas são, nesse sentido, testes invertidos. (Aliás, isso significa que podemos interpretar o valor- como o menor valor de para o qual o valor nulo do parâmetro seria incluído no intervalo de confiança . Acho que isso pode ser uma maneira útil de explique o que os valores de realmente são para pessoas que conhecem um pouco de estatística.)α 1 - α ppα1αp

Lendo sobre o fundamento teórico da decisão de regiões credíveis bayesianas , comecei a me perguntar se há uma conexão / equivalência similar entre regiões credíveis e testes bayesianos.

  • Existe uma conexão geral?
  • Se não houver conexão geral, existem exemplos em que há uma conexão?
  • Se não houver conexão geral, como podemos ver isso?
MånsT
fonte
Uma pergunta relacionada sobre a qual eu estive pensando - alguém poderia me apontar para um artigo que eles consideram o "padrão ouro" ou "exemplo canônico" dos testes de hipóteses bayesianas usados ​​em um problema real, em vez de um exemplo de brinquedo. Eu realmente nunca entendi o teste de hipóteses bayesianas e acho que acho um bom exemplo de seu uso instrutivo.
Patrick Caldon
2
@PatrickCaldon Duvido que exista um "papel de ouro" nisso, porque o teste de hipóteses bayesiano é formulado em uma estrutura teórica da decisão (portanto, é muito grande para ser capturado em um único artigo). O livro mencionado na resposta de MånsT fornece um bom material, os livros e palestras de Berger também podem ser interessantes.
Acredito que o artigo ba.stat.cmu.edu/vol03is01.php possa esclarecer a maior parte de nossa discussão aqui.
Carlos AB Pereira
Obrigado, @Carlos! O link parece não funcionar no momento, mas acho que ele leva ao seu artigo de 2008 na Bayesian Analysis com Stern e Wechsler. Achei que uma leitura muito interessante!
MånsT
Caro MånsT: A análise bayesiana mudou-se para o Projeto Euclides. O artigo do Prof. Carlos está aqui: projecteuclid.org/…
Zen

Respostas:

19

Eu consegui criar um exemplo em que existe uma conexão. Parece depender muito da minha escolha da função de perda e do uso de hipóteses compostas.

Começo com um exemplo geral, que é seguido por um caso especial simples envolvendo a distribuição normal.

Exemplo geral

Para um parâmetro desconhecido , deixe ser o espaço do parâmetro e considere a hipótese versus a alternativa .Θ θ Θ 0 θ Θ 1 = Θ Θ 0θΘθΘ0θΘ1=ΘΘ0

Vamos ser uma função de teste, usando a notação em Xi'an 's A Bayesian escolha (que é uma espécie de trás para que eu pelo menos estou acostumado a), de modo que nós rejeitamos se e aceito se . Considere a função de perda O teste de Bayes é entãoΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , se  φ = I Θ 0 ( θ ) a 0 , se  θ Θ 0  e  φ = 0 a 1 , se  θ Θ 1  e  φ = 1. φ π ( x ) =φΘ0φ=0Θ0φ=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

Tome e . A hipótese nula é aceita se .a 1 = 1 - α Θ 0 P ( θ Θ 0 | x ) 1 - αa0=α0.5a1=1αΘ0P(θΘ0|x)1α

Agora, uma região credível é uma região tal que . Assim, por definição, se é tal que , pode ser uma região credível apenas se . P ( Θ c | x ) 1 - ct Θ 0 P ( q Θ 0 | x ) 1 - ct Θ c P ( Θ 0Θ c | x ) > 0ΘcP(Θc|x)1αΘ0P(θΘ0|x)1αΘcP(Θ0Θc|x)>0

Aceitamos a hipótese nula se um somente se cada região -credible contiver um subconjunto não nulo de .q 01αΘ0

Um caso especial mais simples

Para ilustrar melhor que tipo de teste temos no exemplo acima, considere o seguinte caso especial.

Seja com . Defina , e , para que desejemos testar se .θ N ( 0 , 1 ) Θ = R Θ 0 = ( - , 0 ] Θ 1 = ( 0 , ) θ 0xN(θ,1)θN(0,1)Θ=RΘ0=(,0]Θ1=(0,)θ0

Os cálculos padrão fornecem onde é o cdf normal padrão.Φ()

P(θ0|x)=Φ(x/2),
Φ()

Seja tal que . é aceito quando . & Phi; ( z 1 - α ) = 1 - α q 0 - x / z1αΦ(z1α)=1αΘ0x/2>z1α

Isso equivale a aceitar quandoPara , é, portanto, rejeitado quando .α=0,05Θ0x>-2,33x2zα.α=0.05Θ0x>2.33

Se, em vez disso, usarmos o , será rejeitado quando .Θ 0 x > - 2,33 - νθN(ν,1)Θ0x>2.33ν

Comentários

A função de perda acima, onde pensamos que aceitar falsamente a hipótese nula é pior do que rejeitá-la falsamente, pode à primeira vista parecer um pouco artificial. No entanto, pode ser de uso considerável em situações em que os "falsos negativos" podem ser onerosos, por exemplo, ao rastrear doenças contagiosas ou terroristas perigosas.

A condição de que todas as regiões credíveis devem conter uma parte de é na verdade um pouco mais forte do que eu esperava: no caso freqüentista, a correspondência é entre um único teste e um único intervalo de confiança e não entre um único teste e todos os intervalos . 1 - α 1 - αΘ01α1α

MånsT
fonte
2
+1 Eu usaria a região de credibilidade em vez do intervalo de credibilidade .
1
Obrigado @Procrastinator! Eu editei a resposta e mudei para "região" enquanto estava nela. Eu trabalho principalmente com regiões HPD de posteriores unimodais, por isso costumo pensar em regiões de confiança como intervalos. :) #
31912
12

Michael e Fraijo sugeriram que simplesmente verificar se o valor do parâmetro de interesse estava contido em alguma região credível como o equivalente bayesiano de inverter os intervalos de confiança. Fiquei um pouco cético sobre isso no começo, já que não era óbvio para mim que esse procedimento realmente resultou em um teste bayesiano (no sentido usual).

Acontece que sim - pelo menos se você estiver disposto a aceitar um certo tipo de função de perda. Muito obrigado a Zen , que forneceu referências a dois documentos que estabelecem uma conexão entre regiões HPD e testes de hipóteses:

Vou tentar resumi-los aqui, para referência futura. Analogamente ao exemplo da pergunta original, tratarei do caso especial em que as hipóteses são onde é o espaço do parâmetro.Θ

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Pereira & Stern propuseram um método para testar essas hipóteses sem ter que colocar probabilidades anteriores em eΘ 1Θ0Θ1 .

Vamos denotar a função de densidade de e definirθ T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

Isso significa que é uma região HPD , com credibilidade .T(x)P(θT(x)|x)

O teste de Pereira-Stern rejeita quando é "pequeno" ( , digamos). Para um posterior unimodal, isso significa que está distante nas caudas do posterior, tornando esse critério um pouco semelhante ao uso de valores-p. Em outras palavras, é rejeitado no nível se e somente se não estiver contido na região HPD . P ( θ T ( x ) | x ) < 0,05 θ 0 Θ 0 5 % 95 %Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

Deixe a função de teste ser se for aceito e se for rejeitado. Madruga et al. propôs a função de perda com .1 Θ 0 0 Θ 0 L ( θ , φ , x ) = { a ( 1 - I ( θ T ( x ) ) , se  φ ( x ) = 0 b + c I ( θ ( T ( x )) ) , se  φ ( x ) = 1 , umφ1Θ00Θ0

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

A minimização da perda esperada leva ao teste de Pereira-Stern, onde é rejeitado seΘ0P(θT(x)|x)<(b+c)/(a+c).

Até agora, está tudo bem. O teste de Pereira-Stern é equivalente a verificar se está em uma região HPD e existe uma função de perda que gera esse teste, o que significa que ele é fundamentado na teoria da decisão.θ0

A parte controversa, porém, é que a função de perda depende dex . Embora essas funções de perda tenham aparecido na literatura algumas vezes, elas não parecem ser geralmente aceitas como muito razoáveis.

Para uma leitura mais aprofundada sobre esse tópico, consulte uma lista de artigos que citam Madruga et al. artigo .


Atualização em outubro de 2012:

Eu não estava completamente satisfeito com a função de perda acima, pois sua dependência de torna a tomada de decisão mais subjetiva do que eu gostaria. Passei mais tempo pensando sobre esse problema e acabei escrevendo uma breve nota sobre ele, postada no arXiv hoje cedo .x

Seja denota a função quantil posterior de , de modo que . Em vez de conjuntos de HPD, consideramos o intervalo central (de cauda igual) . Testar usando esse intervalo pode ser justificado na estrutura teórica da decisão sem uma função de perda que dependa de .qα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x))Θ0x

O truque é reformular o problema de testar a hipótese nula ponto como um problema de três decisões com conclusões direcionais. é então testado contra e .Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

Deixe a função de teste se aceitarmos (observe que esta notação é o oposto do usado acima!). Acontece que, sob a função de perda ponderada dos Bayes teste é rejeitar se não estiver no intervalo central.φ=iΘi01

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

Isso parece uma função de perda bastante razoável para mim. Discuto essa perda, a perda e o teste de Madruga-Esteves-Wechsler usando conjuntos credíveis mais adiante no manuscrito no arXiv.

MånsT
fonte
2
(Eu estou marcando este como uma comunidade wiki)
MånsT
Quando você diz "Para chegar ao teste de Pereira-Stern, devemos minimizar a perda posterior esperada", bem, na verdade, fazemos isso em qualquer procedimento de decisão bayesiano. A diferença aqui é que a função de perda depende de dados (como você apontou), o que não é padrão. Normalmente, temos . L:{ParameterSpace}×{Actions}R
Zen
@ Zen: Sim, é claro, eu expressei isso errado. Obrigado por apontar isso. :) #
26262
3
@ MånsT: (+1) Esta é uma resposta interessante. Eu respeito muito o fato de você ter escolhido marcar isso como CW neste caso, mas eu gostaria que você não o fizesse. :-)
cardeal
8

Por coincidência, li seu artigo sobre o arXiv antes de chegar a esta pergunta e já escrevi uma entrada de blog sobre ele ( prevista para 08 de outubro ). Para resumir, acho sua construção de interesse teórico, mas também acho que é artificial demais para ser recomendado, esp. como ele não parece resolver o problema de teste bayesiano da hipótese do ponto nulo, que tradicionalmente exige que se coloque alguma massa anterior no valor do parâmetro ponto nulo.

Ou seja, a solução que você propõe acima (na atualização de outubro) e como o Teorema 2 no seu artigo arXiv não é um procedimento de teste válido, pois usa três valores, em vez dos dois valores que correspondem a aceitar / rejeitar. Da mesma forma, a função de perda usada no Teorema 3 (não reproduzida aqui) equivale a testar uma hipótese unilateral, , em vez de uma hipótese sem nulo .φH0:θθ0H0:θ=θ0

Minha principal questão, no entanto, é que me parece que o Teorema 3 e o Teorema 4 no seu artigo arXiv não são válidos quando é uma hipótese nula, ou seja, quando , sem massa anterior.H0Θ0={θ0}

Xi'an
fonte
1
Obrigado (+1) pelos seus comentários! Estou ansioso para ler o seu blog. :) Como você ressalta, os Teoremas 3 e 4 dizem respeito apenas a hipóteses compostas. O no Teorema 2 é um erro de impressão. Ele deve ler , caso em que quando , o que acontece quando é no intervalo credível. Vou mudar isso no manuscrito arXiv o mais rápido possível! α / 2 φ = 0 α / 2 < min ( P ( Θ - 1 ) , P ( Θ 1 ) ) θ 01α/2α/2φ=0α/2<min(P(Θ1),P(Θ1))θ0
MånsT
Você está certo (+1!), Eu estava pensando na desigualdade de outra maneira! No documento arXiv, a desigualdade central é escrita da maneira errada. ou seja, deve-se aceitar iffH0
Xian
É bom ouvir isso :) O manuscrito atualizado (com Thm 2 corrigido) estará no arXiv na segunda-feira. Farei a suposição de que também não é nulo no Thm 4. Θ0
MånsT
1
Apenas certifique-se de esclarecer a prova do Teorema 2 no documento arXiv: a desigualdade exibida está escrita da maneira errada. ou seja, deve-se aceitar se , não o contrário! P ( q q i | x ) > α / 2H0P(θΘi|x)>α/2
Xi'an
3

Você pode usar um intervalo credível (ou região HPD) para o teste de hipótese bayesiana. Eu não acho que é comum; no entanto, para ser justo, não vejo muito nem uso na prática testes de hipóteses bayesianas formais. Os fatores de Bayes são ocasionalmente usados ​​(e no "Bayesian Core" de Robert, um tanto elogiado) nos testes de hipótese estabelecidos.

Fraijo
fonte
1
Cheers @Fraijo! Você poderia talvez elaborar um pouco sobre como sua resposta difere da de Michael Chernick?
MånsT
2
Não acho que o uso dos fatores de Bayes para testar hipóteses seja "ocasional"; veja, por exemplo, esta referência .
@ MånsT no acompanhamento do processo que Michael descreve parece ser um teste do Bayes Factor. Essencialmente, você cria dois modelos com antecedentes diferentes com base em sua hipótese e, em seguida, compara a probabilidade do conjunto de dados com base nesses antecedentes. A referência publicada pelo Procrasinator faz uma rápida revisão disso.
Fraijo 10/07/12
1
@ Procrastinator Eu disse ocasionalmente apenas porque, na minha indústria, vejo poucas pessoas usando métodos bayesianos, muito menos usando métodos bayesianos para testar hipóteses. Pessoalmente, uso os fatores de Bayes para verificar a sensibilidade de meus modelos ao anterior, que suponho ser uma forma de teste de hipóteses.
Fraijo 10/07/12
1
@ MånsT resposta curta: não. Estabelecer um intervalo confiável e descobrir se ele contém a hipótese nula é o único teste direto comparável ao teste de hipóteses freqüentista. Existem dois problemas com esse método: 1) o fato óbvio de que você pode encontrar várias regiões em alguns casos (por exemplo, um HPD versus uma região simétrica) e 2) testar uma hipótese de ponto (teta = a) conflita com o ideal bayesiano de parâmetros tomando distribuições (theta ~ P (theta)).
Fraijo
1

Uma região credível é apenas uma região em que a integral da densidade posterior sobre a região é uma probabilidade especificada, por exemplo, 0,95. Uma maneira de formar um teste de hipótese bayesiano é verificar se os valores hipotéticos nulos dos parâmetros se enquadram na região credível. Dessa maneira, podemos ter uma correspondência 1-1 semelhante entre testes de hipóteses e regiões confiáveis, assim como os freqüentadores fazem com intervalos de confiança e testes de hipóteses. Mas essa não é a única maneira de realizar testes de hipóteses.

Michael R. Chernick
fonte
Esse tipo de teste Bayesiano ad hoc é frequentemente usado na prática?
precisa saber é
1
@MansT Acho que não. Penso que usualmente os bayesianos colocam probabilidades anteriores na hipótese nula de serem verdadeiras e, depois, com base nos dados constroem probabilidades posteriores. Se as probabilidades posteriores são insignificantes contra a hipótese nula, ela é rejeitada. Mas não sou a melhor pessoa para perguntar, já que não faço inferência bayesiana com muita frequência.
22912 Michael Jackson Chernick
2
O teste descrito por Michael é creditado a Lindley por Zellner em seu livro sobre econometria bayesiana.
Zen
1
Sim, esse tipo de teste certamente surgiu das idéias bayesianas , mas não tenho certeza se elas têm uma base sólida na teoria da decisão bayesiana . Na última configuração, eu esperaria que os testes fossem derivados de uma função de perda, geralmente envolvendo uma função de teste.
MånsT
-1

Deixe-me explicar como eu consegui ler a resposta de Tim .

É baseado nas visualizações de tabela com hipótese (parâmetro estimado) em colunas e observações nas linhas.

insira a descrição da imagem aqui

Na primeira tabela, você tem probabilidades de colas somadas a 1, ou seja, são probabilidades condicionais, cuja condição, ao entrar no evento da coluna é fornecida na linha inferior, chamada 'prior'. Na última tabela, as linhas somam de maneira semelhante a 1 e no meio você tem probabilidades conjuntas, ou seja, probabilidades condicionais encontradas na primeira e na última tabela vezes a probabilidade da condição, as anteriores.

As tabelas basicamente executam a transformação bayesiana: na primeira tabela, você fornece pdf das observações (linhas) em todas as colunas, define o anterior para esta hipótese (sim, a coluna de hipótese é um pdf de observações sob essa hipótese), você faz isso pois cada coluna e tabela o leva primeiro para a tabela de probabilidades conjuntas e, depois, para as probabilidades de sua hipótese, condicionadas pelas observações.

Como recebi da resposta de Tim (corrija-me se estiver errado), a abordagem Intervalo crítico analisa a primeira tabela. Ou seja, uma vez concluída a experiência, conhecemos a linha da tabela (cara ou coroa no meu exemplo, mas você pode fazer experiências mais complexas, como 100 lançamentos de moedas e obter uma tabela com 2 ^ 100 linhas). O frequencialista examina suas colunas, o que, como eu disse, é uma distribuição de possíveis resultados sob a condição de que a hipótese seja verdadeira (por exemplo, a moeda é justa no meu exemplo) e rejeita as hipóteses (colunas) que forneceram um valor de probabilidade muito baixo em a linha observada.

Bayesianista primeiro ajusta as probabilidades, convertendo colunas em linhas e olha para a tabela 3, encontra a linha do resultado observado. Como também é um pdf, ele passa pela linha de resultados do experimento e escolhe a hipótese com maior probabilidade até que seu bolso de 95% de credibilidade esteja cheio. O restante da hipótese é rejeitado.

Como é que você gosta? Ainda estou no processo de aprendizado e o gráfico parece útil para mim. Acredito que estou no caminho certo, pois um usuário respeitável dá a mesma imagem, quando analisa a diferença de duas abordagens . Propus uma visão gráfica da mecânica da seleção de hipóteses.

Encorajo todos a lerem a última resposta de Keith, mas minha imagem da mecânica dos testes de hipóteses pode dizer imediatamente que o freqüentista não olha para a outra hipótese quando verifica a atual, enquanto a consideração de hipóteses de alta credibilidade afeta fortemente a recepção / rejeição de outras hipóteses em bayesiana. análise porque se você tem uma única hipótese que ocorre 95% das vezes sob os dados observados, lança todas as outras hipóteses imediatamente, independentemente de quão bem os dados se ajustem a elas. Vamos deixar de lado a análise do poder estatístico, que contrasta duas hipóteses baseadas em seus intervalos de confiança.

Mas, parece que vi a semelhança entre duas abordagens: elas parecem estar conectadas através da P(A | B) > P(A) <=> P(B|A) > P(B)propriedade . Basicamente, se houver uma dependência entre A e B, ele aparecerá como correlação nas tabelas freq e bayesiana. Então, fazendo um teste de hipótese se correlaciona com o outro, eles devem fornecer os mesmos resultados. Estudar as raízes da correlação provavelmente fornecerá a conexão entre os dois. Na minha pergunta, eu realmente pergunto por que a diferença está em vez da correlação absoluta?

Little Alien
fonte