Os estimadores de Bayes são imunes ao viés de seleção?
A maioria dos trabalhos que discutem estimativas em alta dimensão, por exemplo, dados de sequências genômicas completas, muitas vezes levanta a questão do viés de seleção. O viés de seleção decorre do fato de que, embora tenhamos milhares de preditores em potencial, poucos serão selecionados e a inferência é feita nos poucos selecionados. Portanto, o processo segue duas etapas: (1) selecione um subconjunto de preditores (2) realize inferência nos conjuntos selecionados, por exemplo, estimativa de razão de chances. Dawid, em seu artigo sobre paradoxo de 1994, focou em estimadores imparciais e estimadores de Bayes. Ele simplifica o problema para selecionar o maior efeito, que pode ser um efeito de tratamento. Então ele diz, estimadores imparciais são afetados pelo viés de seleção. Ele usou o exemplo: assuma seguida, cadaZ i
Mas a afirmação preocupante que Dawid, Efron e outros autores fazem é que os estimadores de Bayes são imunes ao viés de seleção. Se agora vou colocar anterior em , digamos , O estimador Bayes de é dado por onde , com o gaussiano padrão.δ i ∼ g ( . ) δ i E { δ i ∣ Z i } = z i + dm(zi)=∫φ(zi-δi)g(δi)dδiφ(.)
Se definirmos o novo estimador de como o você selecionar para estimar com , será o mesmo se a seleção for baseada em . Isso porque é monótono em . Também sabemos que reduz para zero com o termo γ 2 ( Z ) = max { E { δ 1 ∣ Z 1 } , E { δ 2 ∣ Z 2 } , … , E { δ N ∣ Z N } } , i δ i max γ 1 ( Z ) i γ 2 ( Z ) γ 2 ( Z )
fonte
Respostas:
Como descrito acima, a questão se baseia em inferir o índice e o valor (i⁰, μ⁰) da maior média de uma amostra de RVs normais. O que acho surpreendente na apresentação de Dawid é que a análise bayesiana não soa muito bayesiana. Se for fornecida toda a amostra, uma abordagem bayesiana deve produzir uma distribuição posterior em (i⁰, μ⁰), em vez de seguir as etapas de estimativa, desde a estimativa de i⁰ até a estimativa da média associada. E, se necessário, os estimadores devem vir da definição de uma função de perda específica. Quando, em vez disso, dado o maior ponto da amostra e somente esse ponto, sua distribuição muda, fico bastante confuso com a afirmação de que nenhum ajuste é necessário.
A modelagem anterior também é bastante surpreendente, pois os anteriores sobre os meios devem ser conjuntos e não um produto de normais independentes, uma vez que esses meios são comparados e, portanto, comparáveis. Por exemplo, um prior hierárquico parece mais apropriado, com localização e escala a serem estimadas a partir de todos os dados. Criando uma conexão entre os meios ... Uma objeção relevante ao uso de antecedentes impróprios independentes é que a média máxima μ⁰ então não possui uma medida bem definida. No entanto, não creio que uma crítica de alguns priores a outros seja um ataque relevante a esse "paradoxo".
fonte
Mesmo que seja um pouco contra-intuitivo, a afirmação está correta. Suponha que para este experimento, então o posterior para é realmente . Esse fato contra-intuitivo é um pouco semelhante ao fato de Bayes ser imune a paradas secretas (precoces) (que também são muito contra-intuitivas).μ 5 N ( x 5 , σ 2 )i∗=5 μ5 N(x5,σ2)
O raciocínio bayesiano levaria a conclusões falsas se, para cada um desses experimentos (imagine repeti-lo algumas vezes), apenas os resultados da melhor variedade seriam mantidos. Haveria seleção de dados e os métodos bayesianos claramente não são imunes à seleção (secreta) de dados. Na verdade, nenhum método estatístico é imune à seleção de dados.
Se tal seleção fosse feita, um raciocínio bayesiano completo, levando em consideração essa seleção, poderia facilmente corrigir a ilusão.
No entanto, a frase "estimador Bayes é imune ao viés de seleção" é um pouco perigosa. É fácil imaginar situações em que "seleção" significa outra coisa, como por exemplo, seleção de variáveis explicativas ou seleção de dados. Bayes não é claramente imune a isso.
fonte