Gradiente de verossimilhança gaussiana multivariada

Estou tentando encontrar a estimativa MAP para um modelo por descida gradiente. Meu prior é gaussiano multivariado com uma matriz de covariância conhecida.

Em um nível conceitual, acho que sei como fazer isso, mas esperava alguma ajuda com os detalhes. Em particular, se houver uma maneira mais fácil de abordar o problema, isso seria especialmente útil.

Aqui está o que eu acho que preciso fazer:

Para cada dimensão, encontre a distribuição condicional, dada a minha posição atual nas outras dimensões.
Isso me dá um gaussiano univariado local em cada dimensão, com a média e o desvio padrão corretos.
Eu acho que o gradiente deve ser apenas um vetor de derivadas para cada uma dessas distribuições univariadas.

Minha pergunta tem duas partes:

Essa é a melhor abordagem a ser adotada ou existe uma maneira mais fácil?
Supondo que eu precise seguir esse caminho, qual é a melhor maneira de encontrar essas distribuições condicionais?

normal-distribution covariance-matrix regularization gradient-descent ridge-regression David J. Harris
fonte

Existe alguma razão para você querer fazer isso com descida gradiente? Encontrar o MAP de um MVN com alguns sons anteriores como um problema bastante bem estudado. Como o MVN é auto-conjugado, uma abordagem totalmente bayesiana deve ser possível.

bayerj

@bayerj Boa pergunta. O prior é MVN, mas a probabilidade não é. Eu acho que isso limita minhas opções.

David J. Harris

Ah, ok, eu não entendi.

bayerj

Respostas:

E a otimização?

Vamos ver se eu entendi corretamente. Você tem um modelo condicionado a alguma observação e um conjunto de parâmetros e um levando a uma probabilidade conjunta de . Os parâmetros são distribuídos de acordo com uma normal multivariada conhecida, ou seja, $p(y|x, \theta)$ $x$ $\theta$ $p(\theta)$ $\mathcal{L} = p(y|x, \theta)p(\theta)$ $\theta \sim \mathcal{N}(\mu, \Sigma)$ . Você quer encontrar a solução MAP para este problema, ou seja, Um caso especial desse problema é bem estudado na comunidade de redes neurais, conhecida como decaimento de peso. Nesse caso, e .

{argmax}_{θ} eu .

$\text{argmax}_{\theta} \mathcal{L}.$

μ = 0

$\mu=\mathbf{0}$

Σ = I σ^{2}

$\Sigma = \mathbf{I}\sigma^2$

Como você já observado, o truque é que . Quando você toma o log da densidade gaussiana, muitos termos feios (o exponencial) desaparecem e você terminará com sth como $\text{argmax}_{\theta} \mathcal{L} = \text{argmax}_{\theta} \log \mathcal{L}$ $\log p(\theta) = {1 \over 2}(\theta - \mu)^T\Sigma^{-1}(\theta - \mu) + \text{const}$

\frac{1}{2} \frac{\partial (θ - μ)^{T} Σ^{- 1} (θ - μ)}{\partial θ} = Σ^{- 1} (θ - μ) .

${1 \over 2}{\partial (\theta - \mu)^T\Sigma^{-1}(\theta - \mu) \over \partial \theta} = \Sigma^{-1}(\theta - \mu).$

(Verifique se isso foi feito rapidamente e na minha cabeça.) Juntamente com os derivados do seu modelo, você pode usar otimizadores prontos para chegar a uma solução MAP.

Atualização : Comentário incorporado por David J. Harris. As fórmulas devem estar corretas agora.

bayerj
fonte

(+1) Parece exatamente o que eu preciso. Vou fazer um pouco de verificação esta tarde e depois atingirei a marca de seleção "aceitar" se tudo der certo. Obrigado!

David J. Harris

θ

$\theta$

1 / 2

$1/2$

Deve ser isso, sim. Eu esqueci sobre isto!

bayerj

Deve notar-se que um multivariada (matriz covariância com não-diagonal) Gaussiana antes costume define Tikhonov regularização

Artem Sobolev

Se a probabilidade não é gaussiana, não é possível dizer se há resultados analíticos. Além disso, o segundo marcador está incorreto em geral. Como a probabilidade anterior e geral gaussiana não gera distribuições gaussianas condicionais nos componentes do vetor.

Uma maneira de obter o MAP seria fazer uma análise bayesiana completa, por exemplo, usando o MCMC e usar as amostras posteriores para estimar. [Nesse caso, você teria melhores informações disponíveis do que apenas usando o MAP.] Fora de interesse - por que não seguir esse caminho?

Outra abordagem poderia ser fazer (eu não vi isso geralmente feito, então alguém me corrija se estiver maluco):

$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$

$l(\theta|x) = l(x|\theta) + l(\theta) - l(x)$

$\frac{dl(\theta|x)}{d\theta} = \frac{dl(x|\theta)}{d\theta} + \frac{dl(\theta)}{d\theta} = 0$

$\theta$

conjecturas
fonte

Obrigado pela sua contribuição. Talvez eu não tenha sido claro: agora, só estou interessado em encontrar o gradiente para o anterior. O gradiente do log-posterior é apenas o gradiente da probabilidade do log mais o gradiente do log-anterior, portanto, encontrar esses dois gradientes separadamente deve ser bom.

David J. Harris

θ

$\theta$