Compreendendo a regressão gaussiana de processos através da visualização de funções de base dimensional infinita

Costuma-se dizer que a regressão gaussiana do processo corresponde (GPR) à regressão linear bayesiana com uma quantidade (possivelmente) infinita de funções básicas. Atualmente, estou tentando entender isso em detalhes para obter uma intuição para que tipo de modelo eu posso expressar usando o GPR.

Você acha que essa é uma boa abordagem para tentar entender o GPR?

No livro Processos Gaussianos para Aprendizado de Máquina, Rasmussen e Williams mostram que o conjunto de processos gaussianos descritos pelo núcleo quadrado exponencial parametrizado pode ser equivalentemente descrito como regressão Bayesiana com crença anterior, relativa aos pesos e uma quantidade infinita de funções de base de forma

k (x, x^{'}; eu) = σ_{p}^{2} \exp (- \frac{(x - x)^{2}}{2 {eu}^{2}})

$k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)$

w \sim N (0, σ_{p}^{2} I)

$w \sim \mathcal{N}(0,\sigma_p^2 I)$

Assim, os parâmetros do núcleo poderia por totalmente traduzida para uma parametrização das funções de base.

ϕ_{c} (x; eu) = \exp (- \frac{(x - c)^{2}}{2 {eu}^{2}})

$\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right)$

A parametrização de um kernel diferenciável sempre pode ser traduzida em parametrização das funções anterior e básica ou existem kernels diferenciáveis em que, por exemplo, o número de funções básicas depende da configuração?

$k(x,x')$

k (x, x^{'}) = \sum_{Eu = 1}^{\infty} λ_{Eu} ϕ_{Eu} (x) ϕ_{Eu} (x^{'})

$k(x,x')=\sum_{i=1}^\infty \lambda_i\phi_i(x)\phi_i(x')$

ϕ_{i}

$\phi_i$

w \sim N (0, diag ([λ_{1}^{2}, \dots]))

$w \sim \mathcal{N}(0,\text{diag}([\lambda_1^2,\ldots]))$

ϕ_{i}

$\phi_i$

k (x, x^{'}, θ)

$k(x,x',\theta)$

θ

$\theta$

Minha próxima pergunta é sobre o teorema da inversão de mercers.

Quais conjuntos de funções básicas levam a kernels válidos?

E a extensão

Quais conjuntos de funções básicas parametrizadas levam a kernels diferenciáveis válidos?

gaussian-process kernel-trick basis-function Julian Karls
fonte

Respostas:

Aqui estão algumas observações. Talvez alguém possa preencher os detalhes.

1) Representações básicas são sempre uma boa ideia. É difícil evitá-los se você realmente deseja fazer algo computacional com sua função de covariância. A expansão da base pode fornecer uma aproximação ao kernel e algo para trabalhar. A esperança é que você possa encontrar uma base que faça sentido para o problema que você está tentando resolver.

$\theta$ $\theta$

Normalmente, o número de funções básicas será (contável) infinito, portanto o número não varia com o parâmetro, a menos que alguns valores tenham causado a degeneração do kernel.

$w \sim \mathcal{N}(0,diag[\lambda_1^2, \ldots])$ $w$ $diag[\lambda_1^2, \ldots]$

$\lambda_i$ $\lambda_i$ $x$

Se as funções básicas não forem ortogonais, será mais difícil mostrar que uma covariância definida a partir delas é definitiva positiva. Obviamente, nesse caso, você não está lidando com uma expansão própria, mas com alguma outra maneira de aproximar a função de interesse.

No entanto, não acho que as pessoas normalmente iniciem de várias funções e depois tentem construir um núcleo de covariância a partir delas.

RE: Diferenciabilidade do kernel e diferenciabilidade das funções básicas. Na verdade, não sei a resposta para essa pergunta, mas gostaria de oferecer a seguinte observação.

A análise funcional prossegue aproximando funções (de um espaço dimensional infinito) por somas finitas de funções mais simples. Para fazer isso funcionar, tudo depende do tipo de convergência envolvida. Normalmente, se você estiver trabalhando em um conjunto compacto com fortes propriedades de convergência (convergência uniforme ou soma absoluta) nas funções de interesse, obterá o tipo de resultado intuitivo que deseja: as propriedades das funções simples passam para a função limit - por exemplo, se o kernel é uma função diferenciável de um parâmetro, as funções de expansão devem ser funções diferenciáveis do mesmo parâmetro e vice-versa. Sob propriedades de convergência mais fracas ou domínios não compactos, isso não acontece. Na minha experiência, há um contra-exemplo para toda idéia "razoável" que surgir.

Nota: Para evitar possíveis confusões dos leitores desta pergunta, observe que a expansão gaussiana do ponto 1 não é um exemplo da expansão própria do ponto 2.

Placidia
fonte