Qual é a melhor probabilidade máxima ou probabilidade marginal e por quê?

Ao executar a regressão, se seguirmos a definição de: Qual é a diferença entre uma probabilidade parcial, uma probabilidade de perfil e uma probabilidade marginal?

que, máxima verossimilhança
encontre β e θ que maximize L (β, θ | dados).

Enquanto, Probabilidade marginal
Nós integramos θ da equação de probabilidade explorando o fato de que podemos identificar a distribuição de probabilidade de θ condicional em β.

Qual é a melhor metodologia para maximizar e por quê?

regression maximum-likelihood Ankit Chiplunkar
fonte

Respostas:

Cada um deles dará resultados diferentes com uma interpretação diferente. O primeiro encontra o par , que é mais provável, enquanto o segundo encontra o que é (marginalmente) mais provável. Imagine que sua distribuição fique assim: $\beta$ $\theta$ $\beta$

$\beta=1$ $\beta=2$
$\theta=1$ 0.0 0.2
$\theta=2$ 0.1 0.2
$\theta=3$ 0.3 0.2

Então a resposta de máxima verossimilhança é ( ), enquanto a resposta de máxima verossimilhança marginal é (já que, marginalizando sobre , $\beta=1$ $\theta=3$ $\beta=2$ $\theta$ ). $P(\beta=2)=0.6$

Eu diria que, em geral, a probabilidade marginal geralmente é o que você deseja - se você realmente não se importa com os valores dos parâmetros , então você deve apenas colapsar sobre eles. Mas, provavelmente, na prática, esses métodos não produzirão resultados muito diferentes - se o fizerem, isso pode apontar para alguma instabilidade subjacente em sua solução, por exemplo, vários modos com diferentes combinações de , que fornecem previsões semelhantes. $\theta$ $\beta$ $\theta$

Chris
fonte

Eu encontrei resultados diferentes para métodos de probabilidade máxima / marginal e, portanto, a questão. Eu diria que os dois resultados no meu caso fornecem interpretações diferentes, mas são possíveis.

Ankit Chiplunkar

Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear

y = X β + ϵ, ϵ \sim N (0, σ^{2})

$y = X\beta + \epsilon, \quad \epsilon \sim N(0,\sigma^2)$

onde e e $y \in \mathbb{R}^n, \beta \in \mathbb{R}^p,$ $\beta$ $\sigma^2$ são os parâmetros de interesse. A probabilidade conjunta é

L (β, σ^{2}) = (2 π σ^{2})^{- n / 2} e x p (- \frac{| | y - X β | |^{2}}{2 σ^{2}})

$L(\beta,\sigma^2) = (2 \pi \sigma^2)^{-n/2} exp\left(-\frac{||y-X\beta||^2}{2\sigma^2}\right)$

Otimizando os rendimentos da probabilidade conjunta

\hat{β} = X^{+} y

$\hat{\beta} = X^+ y$

{\hat{σ}}^{2} = \frac{1}{n} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n}||r||^2$

onde é a pseudo-inversa de e é o vector residual ajuste. Note-se que em temos em vez dos graus de liberdade familiares corrigido relação de $X^+$ $X$ $r=y-X\hat{\beta}$ $\hat{\sigma}^2$ $1/n$ . Sabe-se que esse estimador é enviesado no caso de amostra finita. $1/(n-p)$

Agora, suponha que, em vez de otimizar sobre e , integramos out e estimamos partir da probabilidade integrada resultante: $\beta$ $\sigma^2$ $\beta$ $\sigma^2$

{\hat{σ}}^{2} = {max}_{σ^{2}} \int_{R^{p}} L (β, σ^{2}) d β

$\hat{\sigma}^2 = \text{max}_{\sigma^2} \int_{\mathbb{R}^p} L(\beta,\sigma^2) d\beta$

Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que

{\hat{σ}}^{2} = \frac{1}{n - p} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n-p} ||r||^2$

Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.

A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.

Paulo
fonte

Isto é interessante. Estou, no entanto, um pouco preocupado com o fato de que "integrar

" usa uma distribuição marginal inválida, bem como com a ausência de qualquer justificativa aparente para usar essa marginal (imprópria) em comparação com qualquer outra. Que pensamentos você tem sobre esses problemas?

β

$\beta$

whuber

@whuber Compartilho suas preocupações e não tenho uma resposta pronta, mas observe que a probabilidade de ser marginalizado é apenas uma posterior com um uniforme impróprio antes de

, então acho que isso está relacionado à abordagem "objetiva bayesiana". Não se importa quando um parâmetro como

tem uma distribuição prévia inadequada, desde que o posterior seja integrável.

β

$\beta$

β

$\beta$

Paul

Na verdade, com base neste post e comentários, acho que o ML integrado, e não o marginal, é o termo certo para o que estamos fazendo aqui. Editado de acordo.

Paul

+1 Eu sei que estou muito atrasado para esta parte, mas não estou integrando efeitos fixos colocando um uniforme impróprio antes deles exatamente o que REML faz, então você acabou de obter a estimativa REML e essa correção df é exatamente a Por que o REML é melhor para amostras menores?

JLD

@ Chaconne sim, este post foi motivado ao tentar entender o REML! Não tenho (quase) nenhum ensino formal de estatística, portanto derivar tudo isso era novo para mim.

Paul

$\beta$ $\beta$ $\theta$ $\theta$ $\theta$ $\theta$ $\theta_i$ ponderados por sua densidade de probabilidade $p(\theta_i)$ . Agora isso $\theta$ desapareceu, usando amostras de treinamento como $data$ , você pode otimizar a probabilidade marginal wrt $\beta$ .

Seeda
fonte