O processo gaussiano (regressão) tem a propriedade de aproximação universal?

10

Pode qualquer função contínua em [a, b], onde aeb são números reais, ser aproximada ou arbitrariamente próxima da função (em alguma norma) pelos Processos Gaussianos (Regressão)?

Michael D
fonte
11
Seja mais específico!
Henry.L
11
sim! Bem, na verdade, depende da função de covariância, mas para alguns deles, eles o fazem . Dustin Tran et al. também provou um teorema de aproximação universal na estrutura bayesiana para o Processo Gaussiano Variacional , que é um modelo mais complexo por causa das funções de distorção, mas está intimamente relacionado. Escreverei uma resposta se a pergunta for reaberta. O PS nota que a aproximação universal, como nas redes neurais, se mantém apenas sobre um conjunto compacto, não sobre todo o . Rp
DeltaIV 19/03/19
3
A afirmação de "aproximação universal" nesta pergunta parece ter pouco ou nada a ver com a afirmação no artigo referenciado da Wikipedia. De fato, nem está claro como alguém pode se aproximar de uma função com um processo . Você poderia elaborar o que está tentando perguntar?
whuber
5
@whuber Embora os aspectos técnicos possam ser um pouco frouxos, acho que a pergunta significa essencialmente "Para uma função de entrada , existe a realização de um GP específico que é arbitrariamente próximo de (em alguma norma)?" Ou talvez: "Como observamos infinitamente muitos pontos de amostra de uma função e realizamos inferência padrão do GP com esses dados, a função média posterior aprendida se aproxima da verdadeira função (em algum sentido)?" É claro que essas duas são propriedades diferentes, mas eu as consideraria próximas o suficiente para serem responsáveis ​​(e, portanto, dar o quinto voto de reabertura). ffff
Dougal
11
Talvez você queira provar convergência em vez de aproximação. Caso contrário, a prova é simples: você pode assumir a função como anterior para a média. Não é muito mais que , mas funciona. x=x
precisa

Respostas:

16

Como observa @Dougal, existem duas maneiras diferentes pelas quais sua pergunta pode ser interpretada. Eles estão intimamente relacionados, mesmo que não pareça.

A primeira interpretação é: seja um subconjunto compacto de (a compactação é fundamental para todos os itens a seguir !!!), seja um função de covariância contínua (ou kernel) definida em e denota com o espaço normalizado de funções contínuas em , equipado com a norma máxima . Para qualquer função , pode ser aproximada a uma tolerância pré-especificada por uma função no RKHS (Reproducing Kernel Hilbert Space) associado aXRdk(x,x)X×XC(X)X||||fC(X)fϵk? Você pode se perguntar o que é um RKHS e o que tudo isso tem a ver com a regressão de processo gaussiana. Um RKHS é o fechamento do espaço vetorial formado por todas as combinações lineares finitas possíveis de todas as funções possíveis onde . Isso está estritamente relacionado à regressão do processo gaussiano, porque, dado um processo gaussiano anterior no espaço , depois o (fechamento do) O espaço de todos os meios posteriores possíveis que podem ser gerados pela regressão de processo gaussiana é exatamente o RKHS. De fato, todos os meios posteriores possíveis têm a formaK(X)fy(x)=k(x,y)yXGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

isto é, são combinações lineares finitas de funções . Assim, estamos efetivamente perguntando se, dado um processo gaussiano anterior em , para qualquer função lá é sempre uma função no espaço (fechamento do) de todas as funções que podem ser geradas pelo GPR, o mais próximo possível de .fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)ff

A resposta, para alguns kernels específicos (incluindo o kernel clássico exponencial quadrado, mas não incluindo o kernel polinomial), é sim . Pode-se provar que, para esses núcleos, é denso em , ou seja, para qualquer e para qualquer tolerância , existe um em tal que . Observe as suposições: é compacto, é contínuo e é um núcleo contínuo com a chamada propriedade de aproximação universal. Veja aquiK(X)C(X)fC(X)ϵfK(X)||ff||<ϵXfk para uma prova completa em um contexto mais geral (portanto complicado).

Este resultado é muito menos poderoso do que parece à primeira vista. Mesmo se estiver no espaço (fechamento do) dos meios posteriores que podem ser gerados pelo GPR, não provamos que seja a média posterior específica retornada pelo GPR, para um conjunto de treinamento grande o suficiente, onde é claro que o conjunto de treinamento consiste em observações barulhentas de nos pontos . Nem sequer provamos que a média posterior retornada pelo GPR converge de maneira alguma para ! Esta é realmente a segunda interpretação sugerida por @Dougal. A resposta a esta pergunta depende da resposta à primeira: se não houver nenhuma funçãoffx1,,xnnfno RKHS, que é uma "boa aproximação" de , é claro que não podemos esperar que a média posterior retornada pelo GPR converja para ele. No entanto, é uma pergunta diferente. Se você também gostaria de ter uma resposta para essa pergunta, faça uma nova pergunta.f

DeltaIV
fonte