Andrew Gelman escreveu um extenso artigo sobre o motivo pelo qual o teste Bayesiano AB não exige correção de múltiplas hipóteses: Por que geralmente não precisamos nos preocupar com comparações múltiplas , 2012.
Não entendo bem: por que os métodos bayesianos não exigem várias correções de teste?
A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal
Meu entendimento é que a abordagem bayesiana mostrada acima explica a distribuição subjacente compartilhada por todas as hipóteses (ao contrário de uma correção freqüentista de Bonferroni). Meu raciocínio está correto?
hypothesis-testing
bayesian
multiple-comparisons
ameba diz Restabelecer Monica
fonte
fonte
Respostas:
Uma maneira estranha de responder à pergunta é notar que o método bayesiano não oferece nenhuma maneira de fazer isso, porque os métodos bayesianos são consistentes com as regras de evidência aceitas e os métodos freqüentistas frequentemente estão em desacordo com eles. Exemplos:
O problema decorre da reversão do fluxo de tempo e informações pelos freqüentadores, fazendo com que os freqüentadores tenham que considerar o que poderia ter acontecido em vez do que aconteceu . Por outro lado, as avaliações bayesianas ancoram todas as avaliações na distribuição anterior, que calibra as evidências. Por exemplo, a distribuição anterior da diferença AB calibra todas as avaliações futuras da AB e não precisa considerar o CD.
Com o teste seqüencial, há uma grande confusão sobre como ajustar as estimativas pontuais quando um experimento é encerrado precocemente usando inferência freqüente. No mundo bayesiano, o anterior "recua" em qualquer estimativa pontual, e a distribuição posterior atualizada se aplica à inferência a qualquer momento e não requer considerações complexas sobre o espaço da amostra.
fonte
Esse tipo de modelo hierárquico reduz as estimativas e reduz o número de afirmações falsas em uma extensão razoável para um número pequeno a moderado de hipóteses. Isso garante alguma taxa de erro específica do tipo I? Não.
Essa sugestão específica de Gelman (que reconhece o problema de olhar para muitas coisas diferentes e depois concluir com muita facilidade e erroneamente que você vê algo para algumas delas - na verdade, um de seus tópicos favoritos em seu blog) é distinta da alternativa extrema ponto de vista que sustenta que os métodos bayesianos não precisam explicar a multiplicidade, porque tudo o que importa é a sua probabilidade (e a sua anterior).
fonte
Pergunta muito interessante, aqui está minha opinião.
É tudo sobre codificação de informações e, em seguida, gire a manivela bayesiana. Parece bom demais para ser verdade - mas ambos são mais difíceis do que parecem.
Eu começo com a pergunta
Quais informações estão sendo usadas quando nos preocupamos com várias comparações?
Eu posso pensar em alguns - o primeiro é "dragagem de dados" - teste "tudo" até que você obtenha aprovação / reprovação suficientes (eu acho que quase todas as pessoas treinadas em estatísticas estariam expostas a esse problema). Você também tem menos sinistro, mas essencialmente o mesmo "Eu tenho tantos testes para executar - certamente nem todos podem estar corretos".
Depois de pensar sobre isso, noto que você não costuma ouvir muito sobre hipóteses ou comparações específicas. É tudo sobre a "coleção" - isso desencadeia meu pensamento em relação à permutabilidade - as hipóteses comparadas são "semelhantes" umas às outras de alguma maneira. E como você codifica a permutabilidade na análise bayesiana? - hiperpriores, modelos mistos, efeitos aleatórios, etc !!!
Mas a permutabilidade apenas leva você a parte do caminho até lá. Tudo é intercambiável? Ou você tem "esparsidade" - como apenas alguns coeficientes de regressão diferentes de zero com um grande número de candidatos. Modelos mistos e efeitos aleatórios normalmente distribuídos não funcionam aqui. Eles ficam "presos" entre o ruído achatado e deixam os sinais intocados (por exemplo, no exemplo, mantenha os parâmetros locationB e locationC "true" iguais e defina o parâmetro locationA "true" arbitrariamente grande ou pequeno, e observe o modelo misto linear padrão falhar.) . Mas pode ser consertado - por exemplo, com anteriores de "espigão e laje" ou anteriores de "ferradura".
Portanto, trata-se realmente de descrever de que tipo de hipótese você está falando e de obter tantos recursos conhecidos refletidos na probabilidade e antes. A abordagem de Andrew Gelman é apenas uma maneira de lidar implicitamente com uma ampla classe de múltiplas comparações. Assim como os mínimos quadrados e as distribuições normais tendem a funcionar bem na maioria dos casos (mas não em todos).
Em termos de como isso ocorre, você pode pensar em uma pessoa que raciocina da seguinte maneira - o grupo A e o grupo B podem ter a mesma média - observei os dados e os meios estão "próximos" - Portanto, para obter uma estimativa melhor para ambos, devo reunir os dados, pois meu pensamento inicial era que eles tivessem a mesma média. - Se eles não são os mesmos, os dados fornecem evidências de que estão "próximos", portanto, agrupar "um pouco" não vai me machucar muito se minha hipótese estiver errada (a la todos os modelos estão errados, alguns são úteis)
Observe que todas as anteriores dependem da premissa inicial "elas podem ser as mesmas". Tire isso, e não há justificativa para o pool. Você provavelmente também pode ver uma maneira de "distribuição normal" de pensar sobre os testes. "Zero é mais provável", "se não for zero, então próximo de zero é o próximo mais provável", "valores extremos são improváveis". Considere esta alternativa:
Então, a discussão sobre agrupar "um pouco" é uma péssima idéia. É melhor escolher pool total ou pool zero. Muito mais parecido com um Cauchy, espigão e laje, tipo de situação (muita massa em torno de zero e muita massa por valores extremos)
As comparações múltiplas inteiras não precisam ser tratadas, porque a abordagem bayesiana está incorporando as informações que nos levam a nos preocupar com a anterior e / ou com a probabilidade . Em certo sentido, é mais um lembrete para pensar adequadamente sobre quais informações estão disponíveis para você e garantir que você as incluiu em sua análise.
fonte
Primeiro, como eu entendo o modelo que você apresentou, acho que é um pouco diferente da proposta de Gelman, que se parece mais com:
Na prática, adicionando esse
commonLocation
parâmetro, as inferências sobre os parâmetros das 3 distribuições (aqui locais 1, 2 e 3) não são mais independentes uma da outra. Além disso,commonLocation
tende a encolher os valores esperados dos parâmetros em direção a um valor central (geralmente estimado). Em certo sentido, ele funciona como uma regularização de todas as inferências, tornando desnecessária a necessidade de correção para correção múltipla (como na prática, realizamos uma única contabilidade de estimativa multivariada a partir da interação entre cada uma delas através do uso de modelo).Como apontado pela outra resposta, essa correção não oferece nenhum controle sobre o erro do tipo I, mas na maioria dos casos, o método bayesiano não oferece esse controle, mesmo na escala de inferência única, e a correção para comparação múltipla deve ser pensada diferentemente no padrão bayesiano. configuração.
fonte