Tentando entender o Processo Gaussiano

9

Estou lendo o livro GPML e, no capítulo 2 (página 15) , ele mostra como fazer a regressão usando o Gaussian Process (GP), mas estou tendo dificuldade para entender como funciona.

Na inferência bayesiana para modelos paramétricos, primeiro escolhemos um prior nos parâmetros do modelo , ou seja, ; segundo, dados os dados de treinamento , calculamos a probabilidade ; e finalmente temos o posterior de como , que será usado na distribuição preditiva , e acima é o que fazemos na inferência bayesiana para modelos paramétricos, certo?p ( θ ) D p ( D | θ ) θ p ( θ | D ) p ( y | x , D ) = p ( y | x , θ ) p ( θ | D ) d θθp(θ)Dp(D|θ)θp(θ|D)

p(y|x,D)=p(y|x,θ)p(θ|D)dθ

Bem, como dito no livro, GP não é paramétrico, e até onde eu entendi, depois de especificar a função média e a função de covariância , temos uma função GP sobre , , e este é o prior de . Agora eu tenho um conjunto de dados de treinamento sem ruído thought Eu pensei que deveria calcular a probabilidade e depois o posterior e, finalmente, use o posterior para fazer previsões.K ( x , x ' ) f f ~ L P ( m , k ) f D = { ( x 1 , f 1 ) , . . . , ( x n , f n ) } p ( D | f ) p ( f | D )m(x) k(x,x)f

fGP(m,k)
f
D={(x1,f1),...,(xn,fn)}
p(D|f) p(f|D)

No entanto, não é isso que o livro faz! Quero dizer, depois de especificar o , ele não calcula a probabilidade e o posterior, mas apenas avança para a previsão preditiva.p(f)

Questão:

1) Por que não calcular a probabilidade e posterior? Só porque o GP não é paramétrico, então não fazemos isso?

2) Como é feito no livro (páginas 15 a 16), deriva a distribuição preditiva por meio da distribuição conjunta do conjunto de dados de treinamento e do conjunto de dados de teste , denominado como conjunto anterior . Tudo bem, isso me confunde muito, por que juntá-los?fff

3) Eu vi alguns artigos chamar o latente variável, por quê?f

abacate
fonte
Pessoalmente, não acho que a regressão GP pertença à inferência bayesiana, pois não segue os passos da abordagem bayesiana. A chamada distribuição preditiva no GP é derivada da junção dos dados de treinamento e teste no anterior e, em seguida, condicionada aos dados de treinamento, não utiliza probabilidade ou posterior.
abacate

Respostas:

2

e acima é o que fazemos na inferência bayesiana para modelos paramétricos, certo?

O livro está usando a média bayesiana do modelo, que é a mesma para os modelos paramétricos ou qualquer outro método bayesiano, considerando que você tem mais de seus parâmetros.

Agora eu tenho um conjunto de dados de treinamento sem ruído

Não precisa ser "silencioso". Veja as páginas seguintes.

No entanto, não é isso que o livro faz! Quero dizer, depois de especificar o p (f) anterior, ele não calcula a probabilidade e o posterior, mas apenas avança para a previsão preditiva.

Veja isto: https://people.cs.umass.edu/~wallach/talks/gp_intro.pdf

Eu acredito que, na página 17, temos a probabilidade e mais tarde a probabilidade. Acredito que se você escrever as derivações e encontrar a posterior e depois a média sobre a posterior para previsão (como na vista espaço-peso), resultará nas mesmas equações da página 19 para média e covariância.

Daniel
fonte
Obrigado pela sua resposta, mas eu já vi que muitos livros não mencionam Bayesiano, eles apenas calculam a distribuição condicional e dizem que isso é posterior, que diabos? p(f|f)
abacate
Encontrar o condicional é basicamente usando a fórmula de Bayes. Escrever coisas na formulação bayesiana convencional é um pouco complicado para os clínicos gerais; eles apenas referem-se a encontrar o condicional e .... #
Daniel
AFAIK, o condicional é calculado dessa maneira, , mas a fórmula de Bayes é . Não vejo por que encontrar condicional está usando a fórmula de Bayes. Você poderia ser mais específico? p(x|y)=p(x,y)/p(y)p(x|y)=p(y|x)p(x)/p(y)
abacate
E como você disse no comentário, "escrever coisas na formulação bayesiana convencional é complicado para os GPs", por formulação bayesiana convencional , você quis dizer, primeiro calcule o posterior , depois calcule a distribuição preditiva . p ( f | D ) = p ( f | f ) p ( f | D ) d fp(f|D)p(f|D)=p(f|f)p(f|D)df
abacate