Como uma taxa de aprendizado menor prejudica o desempenho de um gbm?

8

Eu sempre subscrevi a sabedoria popular de que diminuir a taxa de aprendizado em um gbm (modelo de árvore com gradiente aumentado) não prejudica o desempenho fora da amostra do modelo. Hoje não tenho tanta certeza.

Estou ajustando modelos (minimizando a soma dos erros ao quadrado) no conjunto de dados de habitação em Boston . Aqui está um gráfico de erro pelo número de árvores em um conjunto de dados de teste de 20%

Erro por número de árvores com diferentes taxas de aprendizado

É difícil ver o que está acontecendo no final, então aqui está uma versão ampliada nos extremos

Versão ampliada

Parece que, neste exemplo, a taxa de aprendizado de é a melhor, com taxas menores de aprendizado com desempenho pior nos dados de espera.0,01

Como isso é melhor explicado?

Esse é um artefato do tamanho pequeno do conjunto de dados de Boston? Estou muito mais familiarizado com situações em que tenho centenas de milhares ou milhões de pontos de dados.

Devo começar a ajustar a taxa de aprendizado com uma pesquisa em grade (ou algum outro meta-algoritmo)?

Matthew Drury
fonte

Respostas:

4

Sim, você tem razão: uma taxa de aprendizado mais baixa deve encontrar um melhor ideal do que uma taxa de aprendizado mais alta. Mas você deve ajustar os hiperparâmetros usando a pesquisa em grade para encontrar a melhor combinação de taxa de aprendizado junto com os outros hiperparâmetros.

O algoritmo GBM usa vários hiper parâmetros, além da taxa de aprendizado (retração), são eles:

  1. Número de árvores
  2. Profundidade de interação
  3. Observação mínima em um nó
  4. Fração do saco (fração de observações selecionadas aleatoriamente)

A pesquisa na grade precisa verificar tudo isso para determinar o conjunto de parâmetros mais ideal.

Por exemplo, em alguns conjuntos de dados que eu ajustei com o GBM, observei que a precisão varia amplamente conforme cada hiperparâmetro é alterado. Não executei o GBM no seu conjunto de dados de amostra, mas vou me referir a um exercício de ajuste semelhante para outro conjunto de dados. Consulte este gráfico sobre um problema de classificação com classes altamente desequilibradas.

Impacto da variação da contração (taxa de aprendizado) na métrica Kappa

Embora a precisão seja mais alta para uma taxa de aprendizado mais baixa, por exemplo, para máx. Na profundidade de 16, a métrica Kappa é 0,425 na taxa de aprendizado 0,2, que é melhor que 0,415 na taxa de aprendizado de 0,35.

Mas quando você observa a taxa de aprendizado de 0,25 vs. 0,26, há um aumento acentuado, porém pequeno, do Kappa, para uma profundidade máxima de 14, 15 e 16; enquanto continua diminuindo para a profundidade das árvores 12 e 13.

Por isso, sugiro que você tente a pesquisa em grade.

Além disso, como você mencionou, essa situação também pode ter sido agravada por um tamanho de amostra menor do conjunto de dados.

Sandeep S. Sandhu
fonte
0

Sandeep S. Sandhu forneceu uma ótima resposta. Quanto ao seu caso, acho que seu modelo ainda não convergiu para essas pequenas taxas de aprendizado. Na minha experiência, ao usar uma taxa de aprendizado tão pequena quanto 0,001 na árvore de aumento de gradiente, você precisa de cerca de 100.000 de estágios de aumento (ou árvores) para atingir o mínimo. Portanto, se você aumentar as rodadas de impulso para dez vezes mais, poderá ver a menor taxa de aprendizado com melhor desempenho do que a maior.

Louis Yang
fonte