Estou usando o processo gaussiano (GP) para regressão.
No meu problema, é bastante comum que dois ou mais pontos de dados estejam próximos um do outro, em relação ao comprimento escalas do problema. Além disso, as observações podem ser extremamente barulhentas. Para acelerar os cálculos e melhorar a precisão da medição , parece natural mesclar / integrar aglomerados de pontos próximos um do outro, desde que eu me importe com previsões em uma escala de comprimento maior.
Eu me pergunto o que é uma maneira rápida, mas semiprincipal, de fazer isso.
Se dois pontos de dados estavam perfeitamente sobrepostos, , e o ruído da observação (ou seja, a probabilidade) é gaussiano, possivelmente heteroscedástico, mas conhecido , a maneira natural de proceder parece mesclá-los em um único ponto de dados com:
k=1,2 , para .
Valor observado que é uma média dos valores observados ponderados por sua precisão relativa: . y(1),Y(2) ˉ y =σ 2 y ( → x ( 2 ) )
Ruído associado à observação igual a: .
No entanto, como devo mesclar dois pontos próximos, mas sem sobreposição?
Eu acho que ainda deve ser uma média ponderada das duas posições, novamente usando a confiabilidade relativa. A lógica é um argumento do centro de massa (isto é, pense em uma observação muito precisa como uma pilha de observações menos precisas).
Para mesma fórmula acima.
Para o ruído associado à observação, gostaria de saber se, além da fórmula acima, devo adicionar um termo de correção ao ruído, porque estou movendo o ponto de dados. Basicamente, eu obteria um aumento na incerteza relacionada a e (respectivamente, variação do sinal e escala de comprimento da função de covariância). Não tenho certeza da forma desse termo, mas tenho algumas idéias tentativas de como calculá-lo, dada a função de covariância. ℓ 2
Antes de prosseguir, me perguntei se já havia algo lá fora; e se essa parece ser uma maneira sensata de proceder, ou se existem métodos melhores e rápidos .
A coisa mais próxima que pude encontrar na literatura é este artigo: E. Snelson e Z. Ghahramani, Sparse Gaussian Processes using Pseudo-inputs , NIPS '05; mas o método deles é (relativamente) envolvido, exigindo uma otimização para encontrar as pseudo-entradas.
Respostas:
Ótima pergunta e o que você está sugerindo parece razoável. No entanto, pessoalmente, eu procederia de maneira diferente para ser eficiente. Como você disse, dois pontos próximos fornecem poucas informações adicionais e, portanto, os graus efetivos de liberdade do modelo são menores que o número de pontos de dados observados. Nesse caso, pode valer a pena usar o método Nystroms, que é bem descrito na GPML (o capítulo sobre aproximações esparsas pode ser visto http://www.gaussianprocess.org/gpml/ ). O método é muito fácil de implementar e recentemente demonstrou ser altamente preciso por Rudi et al. ( http://arxiv.org/abs/1507.04717 )
fonte
Também estive investigando observações mescladas ao realizar a regressão do Processo Gaussiano. No meu problema, tenho apenas uma covariável.
Não tenho certeza se concordo necessariamente que a aproximação de Nystrom é preferível. Em particular, se uma aproximação suficiente puder ser encontrada com base em um conjunto de dados mesclado, os cálculos poderão ser mais rápidos do que quando se usa a aproximação de Nystrom.
Abaixo estão alguns gráficos que mostram 1000 pontos de dados e a média do GP posterior, o GP posterior com registros mesclados e o GP posterior usando a aproximação de Nystrom. Os registros foram agrupados com base em baldes de tamanho igual da covariável ordenada. A ordem de aproximação está relacionada ao número de grupos ao mesclar registros e a ordem da aproximação de Nystrom. A abordagem de mesclagem e a aproximação de Nystrom produzem resultados idênticos à regressão GP padrão quando quando a ordem de aproximação é igual ao número de pontos.
Nesse caso, quando a ordem da aproximação é 10, a abordagem de mesclagem parece preferível. Quando a ordem é 20, a média da aproximação de Nystrom é visualmente indistinguível da média posterior exata do GP, embora a média baseada nas observações combinadas seja provavelmente boa o suficiente. Quando o pedido é 5, ambos são muito ruins.
fonte