Pode qualquer função contínua em [a, b], onde aeb são números reais, ser aproximada ou arbitrariamente próxima da função (em alguma norma) pelos Processos Gaussianos (Regressão)?
gaussian-process
approximation
Michael D
fonte
fonte
Respostas:
Como observa @Dougal, existem duas maneiras diferentes pelas quais sua pergunta pode ser interpretada. Eles estão intimamente relacionados, mesmo que não pareça.
A primeira interpretação é: seja um subconjunto compacto de (a compactação é fundamental para todos os itens a seguir !!!), seja um função de covariância contínua (ou kernel) definida em e denota com o espaço normalizado de funções contínuas em , equipado com a norma máxima . Para qualquer função , pode ser aproximada a uma tolerância pré-especificada por uma função no RKHS (Reproducing Kernel Hilbert Space) associado aX Rd k(x,x) X×X C(X) X ||⋅||∞ f∈C(X) f ϵ k ? Você pode se perguntar o que é um RKHS e o que tudo isso tem a ver com a regressão de processo gaussiana. Um RKHS é o fechamento do espaço vetorial formado por todas as combinações lineares finitas possíveis de todas as funções possíveis onde . Isso está estritamente relacionado à regressão do processo gaussiano, porque, dado um processo gaussiano anterior no espaço , depois o (fechamento do) O espaço de todos os meios posteriores possíveis que podem ser gerados pela regressão de processo gaussiana é exatamente o RKHS. De fato, todos os meios posteriores possíveis têm a formaK(X) fy(x)=k(x,y) y∈X GP(0,k(x,x)) C(X)
isto é, são combinações lineares finitas de funções . Assim, estamos efetivamente perguntando se, dado um processo gaussiano anterior em , para qualquer função lá é sempre uma função no espaço (fechamento do) de todas as funções que podem ser geradas pelo GPR, o mais próximo possível de .fxi(x)=k(x,xi) GP(0,k(x,x)) C(X) f∈C(X) f∗ f
A resposta, para alguns kernels específicos (incluindo o kernel clássico exponencial quadrado, mas não incluindo o kernel polinomial), é sim . Pode-se provar que, para esses núcleos, é denso em , ou seja, para qualquer e para qualquer tolerância , existe um em tal que . Observe as suposições: é compacto, é contínuo e é um núcleo contínuo com a chamada propriedade de aproximação universal. Veja aquiK(X) C(X) f∈C(X) ϵ f∗ K(X) ||f−f∗||∞<ϵ X f k para uma prova completa em um contexto mais geral (portanto complicado).
Este resultado é muito menos poderoso do que parece à primeira vista. Mesmo se estiver no espaço (fechamento do) dos meios posteriores que podem ser gerados pelo GPR, não provamos que seja a média posterior específica retornada pelo GPR, para um conjunto de treinamento grande o suficiente, onde é claro que o conjunto de treinamento consiste em observações barulhentas de nos pontos . Nem sequer provamos que a média posterior retornada pelo GPR converge de maneira alguma para ! Esta é realmente a segunda interpretação sugerida por @Dougal. A resposta a esta pergunta depende da resposta à primeira: se não houver nenhuma funçãof∗ f x1,…,xn n→∞ f∗ no RKHS, que é uma "boa aproximação" de , é claro que não podemos esperar que a média posterior retornada pelo GPR converja para ele. No entanto, é uma pergunta diferente. Se você também gostaria de ter uma resposta para essa pergunta, faça uma nova pergunta.f
fonte