Por que alguém usaria uma abordagem bayesiana com uma abordagem "não informativa" imprópria antes, em vez da abordagem clássica?

44

Se o interesse é apenas estimar os parâmetros de um modelo (estimativa pontual e / ou intervalo) e as informações anteriores não são confiáveis, fracas (sei que isso é um pouco vago, mas estou tentando estabelecer um cenário em que a escolha de um prior é difícil) ... Por que alguém escolheria usar a abordagem bayesiana com anteriores impróprios 'não informativos' em vez da abordagem clássica?


fonte
1
Obrigado a todos por pensamentos tão interessantes sobre essa parte controversa das estatísticas bayesianas. Eu tenho lido e comparado seus pontos. Existem argumentos interessantes que validam seu uso em termos de regras formais, praticidade e interpretação. Selecionarei uma resposta em algum momento, mas tenho medo de que essa seja uma tarefa muito difícil.

Respostas:

24

Por duas razões, pode-se usar uma abordagem bayesiana, mesmo se você estiver usando anteriores altamente não informativos:

  • Problemas de convergência. Existem algumas distribuições (binomial, binomial negativa e gama generalizada são as que eu estou mais familiarizado) que apresentam problemas de convergência em uma quantidade não trivial de tempo. Você pode usar uma estrutura "bayesiana" - e métodos específicos de Monte Carlo da cadeia de Markov (MCMC), para explorar esses problemas de convergência com poder computacional e obter estimativas decentes deles.
  • Interpretação. Uma estimativa bayesiana + intervalo de confiança de 95% tem uma interpretação mais intuitiva do que uma estimativa freqüentista + intervalo de confiança de 95%; portanto, alguns podem preferir simplesmente relatá-las.
Fomite
fonte
3
O MCMC não é realmente um método bayesiano. Você pode simplesmente desenhar estimativas a partir da sua probabilidade alvo (não posterior) se a convergência for o problema.
scottyaz
16

Embora os resultados sejam muito semelhantes, suas interpretações diferem.

Intervalos de confiança implicam a noção de repetir um experimento várias vezes e ser capaz de capturar o parâmetro verdadeiro 95% das vezes. Mas você não pode dizer que tem 95% de chance de capturá-lo.

Intervalos credíveis (bayesiano), por outro lado, permitem dizer que existe uma "chance" de 95% de que o intervalo captura o valor verdadeiro. Atualização: Uma maneira mais bayesiana de colocar isso é que você pode ter 95% de confiança em seus resultados.

Isso ocorre apenas porque você passou de para usando a Regra de Baye.P ( H y p o t h e s i s | D um t um )P(Data|Hypothesis)P(Hypothesis|Data)

Dominic Comtois
fonte
1
Posso estar confuso aqui, mas como "o verdadeiro valor" se encaixa em uma estrutura bayesiana? Talvez você esteja se referindo ao modo posterior (ou média, ou .. etc)?
Macro
Estou me referindo a qualquer parâmetro (valor da população) que você está estimando com sua estatística de amostra, seja uma média, uma diferença média, uma inclinação de regressão ... Em resumo, o que você procura.
Dominic Comtois
1
Sim, mas o "valor verdadeiro" não indica que o parâmetro é uma constante (ou seja, sua distribuição é uma massa pontual)? Todo o conceito de olhar para a distribuição posterior parece discordar do pensamento dos parâmetros dessa maneira.
Macro
9

Acredito que uma razão para fazer isso é que uma análise bayesiana fornece uma distribuição posterior completa. Isso pode resultar em intervalos mais detalhados do que o típico frequentista . Uma cotação aplicável, de Reis e Stedinger 2005, é:±2σ

Fornecer uma distribuição posterior completa dos parâmetros é uma vantagem da abordagem bayesiana - sobre os métodos clássicos, que geralmente fornecem apenas uma estimativa pontual dos parâmetros representados pelo modo da função de verossimilhança, e fazem uso de premissas de normalidade assintóticas e uma aproximação quadrática da função de probabilidade de log para descrever incertezas. Com a estrutura bayesiana, não é necessário usar nenhuma aproximação para avaliar as incertezas, porque a distribuição posterior completa dos parâmetros está disponível. Além disso, uma análise bayesiana pode fornecer intervalos confiáveis ​​para parâmetros ou qualquer função dos parâmetros que sejam mais facilmente interpretados do que o conceito de intervalo de confiança nas estatísticas clássicas (Congdon, 2001).

Assim, por exemplo, você pode calcular intervalos credíveis para a diferença entre dois parâmetros.

Wayne
fonte
6

Sir Harold Jeffreys foi um forte defensor da abordagem bayesiana. Ele mostrou que, se você usar antecedentes impróprios difusos, a inferência bayesiana resultante seria a mesma que a abordagem inferencial freqüentista (ou seja, as regiões credíveis bayesianas são as mesmas que os intervalos de confiança freqüentadores). A maioria dos bayesianos advoga priores informativos adequados. Existem problemas com os anteriores impróprios e alguns podem argumentar que nenhum anterior é realmente não informativo. Penso que os bayesianos que usam o prior desses Jeffreys o fazem como seguidores de Jeffreys. Dennis Lindley , um dos mais fortes defensores da abordagem bayesiana, tinha muito respeito por Jeffreys, mas defendia priores informativos.

Michael Chernick
fonte
1
+1 nas primeiras linhas da sua resposta. Na minha opinião, a razão para escolher um prior de Jeffreys em vez de um prior "não informativo" não é simplesmente um seguidor de Jeffreys. É porque realmente é como não fazer suposições, enquanto um chamado prioritário não informativo está fazendo uma suposição sobre a parametrização.
Neil G
1
@ NeilG Eu também encontrei algumas pessoas como usá-las para essencialmente "Fail Frequentist" (no mesmo sentido que Fail Safe) ao usar priors não informativos, para que possam ser interpretadas por um leitor ingênuo.
Fomite
@EpiGrad: Como assim? (Sinto muito, meu entendimento de estatísticas frequentistas é muito pobre.)
Neil G
1
@ NeilG Explorar essencialmente o que o prior de Jeffrey dará a você o que alguém treinado em campos freqüentadores espera ver. É um meio termo decente quando trabalhar em métodos bayesianos não penetrou muito.
Fomite
@ NeilG Eu também esqueci que, como na minha resposta, se você estiver usando o MCMC para conduzir uma análise freqüentista, contornando questões de convergência, o prior de Jeffrey também será útil.
Fomite
6

A abordagem bayesiana tem vantagens práticas. Ajuda na estimativa, sendo frequentemente obrigatório. E permite novas famílias de modelos e ajuda na construção de modelos mais complicados (hierárquicos, multiníveis).

Por exemplo, com modelos mistos (incluindo efeitos aleatórios com parâmetros de variação), obtém-se melhores estimativas se os parâmetros de variação são estimados marginalizando sobre parâmetros de nível inferior (coeficientes do modelo; isso é chamado REML ). A abordagem bayesiana faz isso naturalmente. Com esses modelos, mesmo com REML, as estimativas de probabilidade máxima (ML) dos parâmetros de variância geralmente são zero ou enviesadas para baixo. Um prévio adequado para os parâmetros de variação ajuda.

Mesmo se a estimativa pontual ( PAM , máximo a posteriori) for usada, os anteriores alteram a família do modelo. A regressão linear com um grande conjunto de variáveis ​​um pouco colineares é instável. A regularização de L2 é usada como remédio, mas é interpretável como um modelo bayesiano com estimativa gaussiana (não informativa) prévia e MAP. (A regularização L1 é um prior diferente e fornece resultados diferentes. Na verdade, aqui o prior pode ser um pouco informativo, mas trata das propriedades coletivas dos parâmetros, não de um único parâmetro.)

Portanto, existem alguns modelos comuns e relativamente simples em que uma abordagem bayesiana é necessária apenas para fazer a coisa!

As coisas são ainda mais favoráveis ​​com modelos mais complicados, como a alocação latente de Dirichlet (LDA) usada no aprendizado de máquina. E alguns modelos são inerentemente bayesianos, por exemplo, aqueles baseados nos processos de Dirichlet .

Scellus
fonte
6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
zen
fonte
6
βlog(σ2)
Relacionado ao comentário de @ Cyan.
4

Existem várias razões:

  1. ±SE
  2. As grandes propriedades da amostra são geralmente completamente idênticas a algumas abordagens freqüentistas correspondentes.
  3. Muitas vezes há uma relutância considerável em concordar com quaisquer priores, não importa o quanto realmente sabemos, devido ao medo de ser acusado de "não ser objetivo". Usando priors não informativos (“sem antecedentes”), pode-se fingir que não existe esse problema, o que evitará críticas de alguns revisores.

Agora, quanto às desvantagens de apenas usar preliminares não informativos, começando com o que eu acho mais importante e depois indo para alguns dos aspectos técnicos também bastante importantes:

  1. A interpretação do que você recebe é, sinceramente, a mesma que a inferência freqüentista. Você não pode simplesmente re-rotular sua inferência de verossimilhança máxima freqüentista como inferência Bayesiana máxima a posteriori e afirmar que isso o isenta de qualquer preocupação com múltiplas comparações, várias pesquisas nos dados e permite interpretar todas as declarações em termos da probabilidade de que alguma hipótese é verdade. Certamente, erros do tipo I e assim por diante são conceitos freqüentistas, mas, como cientistas, devemos nos preocupar em fazer afirmações falsas e sabemos que fazer isso acima causa problemas. Muitas dessas questões desaparecem (ou pelo menos são muito menos problemáticas), se você incorporar as coisas em um modelo hierárquico / fazer algo empírico Bayes, mas isso geralmente se resume a gerar implicitamente priors por meio do procedimento de análise, incluindo a base do seu prior no seu modelo (e uma alternativa a isso é formular explicitamente os anteriores). Essas considerações são freqüentemente ignoradas, na minha opinião, principalmente para conduzir hackers Bayesianos (ou seja, introduzir a multiplicidade, mas ignorá-la) com a folha de figueira de uma desculpa de que isso não é problema quando você usa métodos bayesianos (omitindo todas as condições que tem que ser cumprido).
  2. No lado mais "técnico", os antecedentes não informativos são problemáticos, porque não é garantido um posterior adequado. Muitas pessoas ajustaram os modelos bayesianos com antecedentes não informativos e não perceberam que o posterior não é adequado. Como resultado, foram geradas amostras de MCMC que eram essencialmente sem sentido.

O último ponto é um argumento para a preferência de anteriores bastante vagos (ou um pouco mais fracamente informativos) que garantam um posterior adequado. É certo que às vezes também pode ser difícil extrair amostras delas, e pode ser difícil perceber que todo o posterior não foi explorado. No entanto, métodos bayesianos com antecedentes vagos (mas adequados) em muitos campos demonstraram ter realmente boas propriedades de amostras pequenas de uma perspectiva freqüentista e você certamente poderia ver isso como um argumento para usá-las, enquanto que com um pouco mais de dados dificilmente haverá qualquer diferença versus métodos com anteriores não informativos.

Björn
fonte