Regressão não-linear não paramétrica com incerteza de previsão (além dos Processos Gaussianos)

Quais são as alternativas de última geração aos Processos Gaussianos (GP) para regressão não-linear não paramétrica com incerteza de previsão, quando o tamanho do conjunto de treinamento começa a se tornar proibitivo para os GPs de baunilha, mas ainda não é muito grande?

Os detalhes do meu problema são:

o espaço de entrada é de baixa dimensão ( , com ) $\mathcal{X} \subseteq \mathbb{R}^d$ $2\le d \le 20$
a saída é com valor real ( ) $\mathcal{Y} \subseteq \mathbb{R}$
os pontos de treinamento são , aproximadamente uma ordem de magnitude maior do que o que você poderia lidar com os GPs padrão (sem aproximações) $10^3 \lesssim N \lesssim 10^4$
a função $f: \mathcal{X} \rightarrow \mathcal{Y}$ a aproximar é uma caixa preta; podemos assumir continuidade e um grau relativo de suavidade (por exemplo, eu usaria uma matriz de covariância de Matérn com $\nu = \frac{5}{2}$ para um GP)
para cada ponto consultado, a aproximação precisa retornar média e variância (ou medida análoga de incerteza) da previsão
Preciso que o método seja reciclável relativamente rápido (da ordem de segundos) quando um ou alguns novos pontos de treinamento são adicionados ao conjunto de treinamento

Qualquer sugestão é bem-vinda (um ponteiro / menção a um método e por que você acha que isso funcionaria é suficiente). Obrigado!

regression machine-learning bayesian nonparametric gaussian-process lacerbi
fonte

E quanto aos GPs esparsos? Com uma boa colocação dos pontos indutores e se houver uma relação esparsa entre entradas e saídas, pontos de treinamento seriam um pedaço de bolo em uma estação de trabalho Xeon.

10^{4}

$10^4$

DeltaIV 5/08/16

Obrigado @DeltaIV. Penso que o ponto chave na sua resposta é "com uma boa colocação dos pontos indutores". Encontrar bons pontos de indução ( é caixa preta) parece um problema difícil. Que tipo de aproximação você recomendaria? (por exemplo, FITC?) Funciona bem na prática?

f

$f$

precisa saber é

Claro que você aprende a posição deles com os dados. Não, o FITC é inferior ao VFE. Dê uma olhada aqui: arxiv.org/pdf/1606.04820v1.pdf . A dimensão e o tamanho do conjunto de dados de treinamento são semelhantes aos seus.

DeltaIV 5/08/16

Você precisa estritamente de métodos de regressão não paramétricos e não lineares? Não conheço sua aplicação, mas na mecânica computacional e na dinâmica de fluidos (casos clássicos em que é uma caixa preta), métodos semelhantes à regressão polinomial ortogonal funcionam notavelmente bem, isto é, métodos de sensoriamento caótico / colocação estocástica de caos polinomial. Caso contrário, você pode tentar MARS ou GAMs (embora os GAMs sejam aditivos).

f

$f$

DeltaIV 5/08/16

Finalmente, eu nunca os usei, mas florestas aleatórias e aumento extremo de gradiente são métodos populares de regressão não-linear não paramétricos para problemas de alta dimensão com grandes conjuntos de treinamento.

DeltaIV 5/08/16

Respostas:

Uma matriz de covariância de Matérn com 5/2 está quase convergindo para um núcleo exponencial ao quadrado. $ν=5/2$

Então eu acho que uma abordagem baseada na função de base radial (RBF) é perfeita nesse cenário. É rápido, funciona para o tipo de função de caixa preta que você possui e você pode obter medidas de incerteza.

Como alternativa, você pode usar aproximações de pontos de indução para GPs, dar uma olhada no FITC na literatura, mas você tem o mesmo problema de onde selecionar os pontos de indução.

auxiliar
fonte

Obrigado. Eu conhecia os RBFs, mas não sabia que é possível / fácil obter medidas decentes de incerteza para eles (eu pensei que uma incerteza do RBF + seria basicamente voltar a um GP com o kernel SE). Você poderia recomendar algum ponto de partida para ler sobre RBFs e como calcular a incerteza com eles?

precisa saber é

Bem, é basicamente regressão linear bayesiana usando funções básicas. E você pode escolher as funções básicas para serem as gaussianas. Então você só precisa atribuir números anteriores aos parâmetros e obterá sua distribuição posterior. Siga os passos do livro de Bishop "Reconhecimento de padrões", capítulo 6.4.1. Também vejo no seu perfil que temos muitos interesses em comum! Pode ser bom manter contato :-) Estou mais do que feliz em ajudar quando posso.

auxiliar

Eu dei uma olhada no Capítulo 6.4.1. Como isso é diferente / mais rápido que os GPs? Entendo que, para o treinamento, eu provavelmente poderia minimizar a perda via LBFGS (e talvez haja métodos ainda mais inteligentes). Isso é do meu entender porque os RBFs são mais rápidos do que os GPs (o gargalo dos GPs é a inversão de matriz). Mas para calcular a incerteza preditiva Preciso condição sobre os pontos observados - não esta exigem uma inversão de um -by- matriz? ( número de pontos de treinamento)

M

$M$

M

$M$

M

$M$

lacerbi

Desculpe, eu provavelmente deveria ter examinado a regressão linear bayesiana no capítulo 3. O que você diz está correto, um modelo de regressão linear bayesiano é equivalente a um GP com uma função especial do kernel; portanto, se você quiser a variação do distribuição preditiva, você precisa inverter a matriz. Você pode fazer isso de uma maneira inteligente, resolvendo sistemas lineares de equações para trás / para frente.

auxiliar