Quando a distribuição amostral freqüentista não pode ser interpretada como posterior bayesiana em cenários de regressão?

Minhas perguntas reais estão nos dois últimos parágrafos, mas para motivá-las:

Se estou tentando estimar a média de uma variável aleatória que segue uma distribuição Normal com uma variação conhecida, li que colocar um uniforme antes da média resulta em uma distribuição posterior proporcional à função de probabilidade. Nessas situações, o intervalo Bayesiano credível se sobrepõe perfeitamente ao intervalo de confiança freqüentista, e a estimativa bayesiana máxima a posteriori é igual à estimativa freqüencial máxima de verossimilhança.

Em uma configuração de regressão linear simples,

$Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2)$

colocar um uniforme anterior em e um inverso gama antes de com pequenos valores de parâmetro resulta em um posterior que será muito semelhante ao freqüentador e um intervalo credível para a distribuição posterior de que será muito semelhante ao intervalo de confiança em torno da estimativa de probabilidade máxima. Eles não serão exatamente os mesmos porque o anterior em exerce uma pequena quantidade de influência e se a estimativa posterior for realizada por simulação do MCMC, que introduzirá outra fonte de discrepância, mas o intervalo Bayesiano em torno do $\beta$ $\sigma^2$ $\hat\beta^{MAP}$ $\hat\beta^{MLE}$ $\beta|X$ $\sigma^2$ $\hat\beta^{MAP}$ e o intervalo de confiança freqüentista em torno de estará bem próximo um do outro e, é claro, à medida que o tamanho da amostra aumenta, eles devem convergir à medida que a influência da probabilidade cresce para dominar a do anterior. $\hat\beta^{MLE}$

Mas eu li que também existem situações de regressão em que essas equivalências quase não são válidas. Por exemplo, regressões hierárquicas com efeitos aleatórios ou regressão logística - essas são situações em que, no meu entender, não existem objetivos ou referências de referência "bons".

Portanto, minha pergunta geral é esta - supondo que eu queira fazer inferência sobre $P(\beta|X)$ e que eu não tenho informações prévias que quero incorporar, por que não posso prosseguir com a estimativa de verossimilhança de probabilidade freqüente nessas situações e interpretar as estimativas de coeficiente resultantes e os erros padrão como as estimativas Bayesianas do MAP e os desvios-padrão e tratá-los implicitamente estimativas "posteriores" como resultantes de um prior que deve ter sido "não informativo" sem tentar encontrar a formulação explícita do prior que levaria a esse posterior? Em geral, dentro do campo da análise de regressão, quando é correto proceder nesse sentido (de tratar a probabilidade como posterior) e quando não é correto? E os métodos freqüentistas que não são baseados em probabilidade, como métodos de quase-probabilidade,

As respostas dependem de se meu objetivo de inferência são estimativas pontuais de coeficientes, ou a probabilidade de um coeficiente estar dentro de um intervalo específico ou quantidades da distribuição preditiva?

bayesian maximum-likelihood posterior frequentist Yakkanomica
fonte

Respostas:

$p$

$H_0$ $p$ $H_0$

$p$ $P(D|H_0)$ $P(H_0|D)$

$p$ $\theta$

L (θ | D) = P (D | θ)

$L(\theta | D) = P(D|\theta)$

$P(\theta|D)$ $\theta$

\underset{posterior}{\underset{⏟}{P (θ | D)}} \propto \underset{likelihood}{\underset{⏟}{P (D | θ)}} \times \underset{prior}{\underset{⏟}{P (θ)}}

$\underbrace{P(\theta|D)}_\text{posterior} \propto \underbrace{P(D|\theta)}_\text{likelihood} \times \underbrace{P(\theta)}_\text{prior}$

$p$

Portanto, embora as estimativas de máxima verossimilhança devam ser as mesmas que as estimativas Bayesianas do MAP em anteriores uniformes, você deve se lembrar que elas respondem a uma pergunta diferente.

Cohen, J. (1994). A terra é redonda (p <0,05). American Psychologist, 49, 997-1003.

Tim
fonte

Obrigado pela sua resposta @ Tim. Eu deveria ter sido mais claro - entendo que P (D | H) e P (H | D) geralmente não são os mesmos, e que freqüentistas e bayesianos diferem de opinião sobre se é apropriado atribuir distribuições de probabilidade a parâmetros ( ou hipóteses de maneira mais geral). O que estou perguntando é sobre situações nas quais a distribuição amostral (freqüentista) de um estimador será numericamente equivalente à distribuição posterior (bayesiana) do valor real do parâmetro.

Yakkanomica

Continuação do meu comentário anterior: Você escreveu: "Portanto, enquanto as estimativas de máxima verossimilhança devem ser as mesmas que as estimativas Bayesianas do MAP em anteriores uniformes" - estou perguntando se há situações em que esse relacionamento se rompe - tanto em termos das estimativas pontuais e das distribuições em torno deles.

Yakkanomica

Um adendo final - Algumas pessoas diriam que a principal virtude da abordagem bayesiana é a capacidade de incorporar, com flexibilidade, conhecimentos prévios. Para mim, o apelo da abordagem bayesiana está na interpretação - a capacidade de atribuir uma distribuição de probabilidade a um parâmetro. Precisando especificar antecedentes é um incômodo. Quero saber em que situações posso usar métodos freqüentistas, mas atribuir uma interpretação bayesiana aos resultados, argumentando que os resultados freqüentistas e bayesianos coincidem numericamente sob anteriores plausivelmente não informativos.

Yakkanomica

@ Yakkanomica Eu entendo, é uma pergunta interessante, mas a resposta simples (como declarada acima) é que você não deve fazer essas interpretações porque os métodos mais frequentes respondem a uma pergunta diferente da bayesiana. As estimativas de pontos ML e MAP devem concordar, mas os intervalos de confiança e o IDH podem diferir e não devem ser interpretados como intercambiáveis.

Tim

Mas, @Tim, há situações em que os intervalos de confiança e o IDH se sobrepõem. Por exemplo, compare as estimativas de BC na p.1906 com as estimativas posteriores Bayesianas (com base em anteriores uniformes nos coeficientes e IG anteriores na escala) no exemplo de p.1908: PROC GENMOD . A estimativa do ponto ML e os limites de confiança de 95% são muito semelhantes à estimativa média posterior bayesiana e ao intervalo de 95% do HPD.

precisa saber é o seguinte