a derivada parcial dos parâmetros wrt de probabilidade marginal de log é fornecida pelos seguintes
Como as entradas de dependem dos parâmetros, assim como derivados e inversa de . Isso significa que, quando um otimizador baseado em gradiente é empregado, a avaliação do gradiente em um determinado ponto (valor do parâmetro) requer recomputação da matriz de covariância. Na minha aplicação, isso não é viável, porque calcular a matriz de covariância do zero e calcular sua inversa em cada iteração de subida de gradiente são muito caros. Minha pergunta é quais são minhas opções para encontrar uma combinação bastante boa desses três parâmetros? e também não sei qual parâmetro otimizar primeiro e também gostaria de receber dicas sobre esse assunto.
regression
optimization
gaussian-process
hyperparameter
bfaskiplar
fonte
fonte
Respostas:
Você está certo que precisa de um novo cálculo da matriz de covariância em cada iteração de subida de gradiente. Portanto, se o cálculo da matriz não for viável para sua configuração, acho que você não poderá usar a otimização da probabilidade marginal baseada em gradiente.
Minha sugestão é usar métodos sem gradiente para o ajuste de hiperparâmetros, como pesquisa em grade, pesquisa aleatória ou pesquisa baseada em otimização bayesiana . Esses métodos são amplamente utilizados para hiperparâmetros de otimização de outros algoritmos de aprendizado de máquina, por exemplo, SVMs.
Sugiro a pesquisa em grade para sua primeira tentativa. Basicamente, você forma uma tabela (grade) de possíveis hiperparâmetros, tenta todos e procura o melhor desempenho de validação (ou melhor probabilidade marginal).
A pesquisa em grade produziria um conjunto sub-ótimo de hiperparâmetros, e você deverá especificar a grade sozinho (dica: criar grade em uma escala de log), mas é necessário muito menos computação. (e você não precisa de gradiente!)
Se você não está familiarizado com a pesquisa em grade, pode procurar na Wikipedia: Otimização de hiperparâmetro - Pesquisa em grade
fonte