Eu estava tentando ganhar alguma intuição para a regressão do Processo Gaussiano, então fiz um simples problema de brinquedo 1D para experimentar. Tomei como entradas e como respostas. ('Inspirado' a partir de )y i = { 1 , 4 , 9 } y = x 2
Para a regressão, usei uma função quadrática exponencial ao quadrado padrão:
Eu assumi que havia ruído com desvio padrão , de modo que a matriz de covariância se tornou:
Os hiperparâmetros foram estimados maximizando a probabilidade logarítmica dos dados. Para fazer uma previsão em um ponto , encontrei a média e a variância, respectivamente, pelo seguintex ⋆
σ 2 x ⋆ = k ( x ⋆ , x ⋆ ) - k T ⋆ ( K + σ 2 n I ) - 1 k ⋆
onde é o vetor da covariância entre e entradas, e é um vetor das saídas.x ⋆ y
Meus resultados para são mostrados abaixo. A linha azul é a média e as linhas vermelhas marcam os intervalos de desvio padrão.
Não tenho certeza se isso está certo; minhas entradas (marcadas com 'X') não estão na linha azul. A maioria dos exemplos que vejo têm a média que cruza as entradas. Esta é uma característica geral que se espera?
fonte
Respostas:
A função média que passa pelos pontos de dados geralmente é uma indicação de excesso de ajuste. A otimização dos hiperparâmetros maximizando a probabilidade marginal tenderá a favorecer modelos muito simples, a menos que haja dados suficientes para justificar algo mais complexo. Como você possui apenas três pontos de dados, que estão mais ou menos alinhados com pouco ruído, o modelo encontrado me parece bastante razoável. Essencialmente, os dados podem ser explicados como uma função subjacente linear com ruído moderado ou como uma função subjacente moderadamente não linear com pouco ruído. A primeira é a mais simples das duas hipóteses, e é favorecida pela "navalha de Occam".
fonte
Você está usando os estimadores de Kriging com a adição de um termo de ruído (conhecido como efeito pepita na literatura do processo gaussiano). Se o termo ruído foi definido como zero, ou seja,
suas previsões agiriam como uma interpolação e passariam pelos pontos de dados de amostra.
fonte
Isso parece bom para mim, no livro GP de Rasmussen mostra definitivamente exemplos em que a função média não passa por cada ponto de dados. Observe que a linha de regressão é uma estimativa para a função subjacente, e estamos assumindo que as observações são os valores da função subjacente mais algum ruído. Se a linha de regressão baseada nos três pontos, estaria essencialmente dizendo que não há ruído nos valores observados.
Como observado por Dikran Marsupial, esse é um recurso incorporado dos Processos Gaussianos, a probabilidade marginal penaliza modelos muito específicos e prefere aqueles que podem explicar muitos conjuntos de dados.
fonte