Quais são algumas das desvantagens da otimização de hiper parâmetros bayesianos?

8

Eu sou bastante novo em aprendizado de máquina e estatística, mas estava me perguntando por que a otimização bayesiana não é referida com mais frequência on-line quando se aprende que o aprendizado de máquina otimiza seus hiperparâmetros de algoritmo? Por exemplo, usando uma estrutura como esta: https://github.com/fmfn/BayesianOptimization

A otimização bayesiana de seus hiperparâmetros tem alguma limitação ou grande desvantagem em relação a técnicas como pesquisa em grade ou pesquisa aleatória?

EtienneT
fonte
3
Não há almoço grátis na pesquisa e otimização . Em geral, a menos que a avaliação da função de custo seja bastante onerosa e a dimensionalidade do problema seja um pouco pequena, o BO geralmente não é a resposta. O campo da otimização matemática não se tornou obsoleto por causa da descoberta dos processos gaussianos.
usεr11852
3
Ótimas respostas. Mas por que você os publica nos comentários?
Jan KUKACKA
@JanKukacka Bom ponto. Mudei meus comentários para uma resposta.
Sycorax diz Reinstate Monica

Respostas:

11
  1. os resultados são sensíveis aos parâmetros do modelo substituto, que geralmente são fixados em algum valor; isso subestima a incerteza; ou então você precisa ser totalmente bayesiano e marginalizar as distribuições de hiper parâmetros, que podem ser caras e difíceis de manejar.
  2. são necessárias uma dúzia de amostras para obter uma boa superfície substituta em 2 ou 3 dimensões do espaço de pesquisa; aumentar a dimensionalidade do espaço de pesquisa requer ainda mais amostras
  3. A otimização bayesiana em si depende de um otimizador para pesquisar a superfície substituta, que tem seus próprios custos - esse problema (espero) é mais barato de avaliar do que o problema original, mas ainda é um problema de otimização com restrição de caixa não convexa (ou seja, difícil!)
  4. estimar o próprio modelo BO tem custos

Dito de outra maneira, BO é uma tentativa de manter o número de avaliações de funções em um nível mínimo e obter o máximo "retorno do investimento" de cada avaliação. Isso é importante se você estiver realizando testes destrutivos ou apenas fazendo uma simulação que leva uma quantidade obscena de tempo para ser executada. Mas em todos os casos, exceto nos mais caros, aplique a pesquisa aleatória pura e encerre o dia ! (Ou LIPO, se o seu problema for passível de suposições.) Isso pode poupar várias dores de cabeça, como otimizar seu programa de otimização bayesiano.

Sycorax diz restabelecer Monica
fonte