Mesclando observações no processo gaussiano

11

Estou usando o processo gaussiano (GP) para regressão.

No meu problema, é bastante comum que dois ou mais pontos de dados estejam próximos um do outro, em relação ao comprimento escalas do problema. Além disso, as observações podem ser extremamente barulhentas. Para acelerar os cálculos e melhorar a precisão da medição , parece natural mesclar / integrar aglomerados de pontos próximos um do outro, desde que eu me importe com previsões em uma escala de comprimento maior.x(1),x(2),

Eu me pergunto o que é uma maneira rápida, mas semiprincipal, de fazer isso.

Se dois pontos de dados estavam perfeitamente sobrepostos, , e o ruído da observação (ou seja, a probabilidade) é gaussiano, possivelmente heteroscedástico, mas conhecido , a maneira natural de proceder parece mesclá-los em um único ponto de dados com:x(1)=x(2)

  • k=1,2x¯x(k) , para .k=1,2

  • Valor observado que é uma média dos valores observados ponderados por sua precisão relativa: . y(1),Y(2) ˉ y =σ 2 y (x ( 2 ) )y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • Ruído associado à observação igual a: .σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

No entanto, como devo mesclar dois pontos próximos, mas sem sobreposição?

  • Eu acho que ainda deve ser uma média ponderada das duas posições, novamente usando a confiabilidade relativa. A lógica é um argumento do centro de massa (isto é, pense em uma observação muito precisa como uma pilha de observações menos precisas).x¯

  • Para mesma fórmula acima.y¯

  • Para o ruído associado à observação, gostaria de saber se, além da fórmula acima, devo adicionar um termo de correção ao ruído, porque estou movendo o ponto de dados. Basicamente, eu obteria um aumento na incerteza relacionada a e (respectivamente, variação do sinal e escala de comprimento da função de covariância). Não tenho certeza da forma desse termo, mas tenho algumas idéias tentativas de como calculá-lo, dada a função de covariância.2σf22

Antes de prosseguir, me perguntei se já havia algo lá fora; e se essa parece ser uma maneira sensata de proceder, ou se existem métodos melhores e rápidos .

A coisa mais próxima que pude encontrar na literatura é este artigo: E. Snelson e Z. Ghahramani, Sparse Gaussian Processes using Pseudo-inputs , NIPS '05; mas o método deles é (relativamente) envolvido, exigindo uma otimização para encontrar as pseudo-entradas.

lacerbi
fonte
1
A propósito, aprecio poder usar inferência aproximada ou alguns métodos em larga escala, mas esse é outro ponto.
lacerbi

Respostas:

4

Ótima pergunta e o que você está sugerindo parece razoável. No entanto, pessoalmente, eu procederia de maneira diferente para ser eficiente. Como você disse, dois pontos próximos fornecem poucas informações adicionais e, portanto, os graus efetivos de liberdade do modelo são menores que o número de pontos de dados observados. Nesse caso, pode valer a pena usar o método Nystroms, que é bem descrito na GPML (o capítulo sobre aproximações esparsas pode ser visto http://www.gaussianprocess.org/gpml/ ). O método é muito fácil de implementar e recentemente demonstrou ser altamente preciso por Rudi et al. ( http://arxiv.org/abs/1507.04717 )

j__
fonte
Obrigado, o método de Nystrom parece uma abordagem interessante, vou dar uma olhada. No entanto, no meu primeiro post, esqueci de mencionar que o ruído nas observações pode ser muito alto (possivelmente maior que o sinal), de modo que a média de pontos próximos forneça informações adicionais.
lacerbi
1
Bem, isso é realmente mais um motivo para usar o método Nystroms. O ruído alto reduz os graus efetivos de liberdade; portanto, se apenas os primeiros valores próprios retiverem o sinal e o restante for simplesmente ruído, o método Nystroms reduzirá os valores inferiores ao primeiro m. Eu acho que vai caber a conta para o que você está procurando. Boa sorte!
j__ 5/09/15
O método Nystrom é o que eu sugeriria (+1). Simplesmente mesclar os pontos em um pode ter problemas para estimar a probabilidade marginal do modelo, pois é improvável que os dois pontos de dados genuínos tenham o mesmo efeito que um único ponto. Meu conselho seria para manter os dois pontos separam, mas para encontrar uma maneira de fazer o cálculo menos caro, que o emthod Nystrom deve alcançar,
Dikran Marsupial
Que tipo de problemas? Se você considerar o caso de dois pontos sobrepostos ao ruído gaussiano, o método da média é exato (desde que você acompanhe a diminuição do ruído da observação). Não vejo por que o mesmo argumento não deve funcionar para pontos próximos da escala de comprimento do problema (com a aproximação piorando com o aumento da distância). Talvez seja isso que o método de Nystrom faz, de uma maneira mais baseada em princípios - ainda preciso entender os detalhes. Estou curioso para compará-lo com o método da média, tanto em termos de precisão quanto de velocidade. Graças
lacerbi
1
@Seeda, não estamos usando o nystrom como um pré-condicionado de forma eficaz, em vez da conpkexidade de tempo reduzido usual, então sim.
j__
1

Também estive investigando observações mescladas ao realizar a regressão do Processo Gaussiano. No meu problema, tenho apenas uma covariável.

Não tenho certeza se concordo necessariamente que a aproximação de Nystrom é preferível. Em particular, se uma aproximação suficiente puder ser encontrada com base em um conjunto de dados mesclado, os cálculos poderão ser mais rápidos do que quando se usa a aproximação de Nystrom.

Abaixo estão alguns gráficos que mostram 1000 pontos de dados e a média do GP posterior, o GP posterior com registros mesclados e o GP posterior usando a aproximação de Nystrom. Os registros foram agrupados com base em baldes de tamanho igual da covariável ordenada. A ordem de aproximação está relacionada ao número de grupos ao mesclar registros e a ordem da aproximação de Nystrom. A abordagem de mesclagem e a aproximação de Nystrom produzem resultados idênticos à regressão GP padrão quando quando a ordem de aproximação é igual ao número de pontos.

Nesse caso, quando a ordem da aproximação é 10, a abordagem de mesclagem parece preferível. Quando a ordem é 20, a média da aproximação de Nystrom é visualmente indistinguível da média posterior exata do GP, embora a média baseada nas observações combinadas seja provavelmente boa o suficiente. Quando o pedido é 5, ambos são muito ruins.

insira a descrição da imagem aqui insira a descrição da imagem aqui insira a descrição da imagem aqui

Richard Redding
fonte