Definição da complexidade de uma árvore no xgboost

9

Pesquisando sobre o algoritmo xgboost, examinei a documentação .

Nesta abordagem, as árvores são regularizadas usando a definição de complexidade que e são parâmetros, é o número de folhas terminais e é a pontuação em cada folha. γλTwj

Ω(f)=γT+12λj=1Twj2
γλTwj

Eu me pergunto: como isso define complexidade? , o número de nós terminais, parece natural para mim. Mas a soma das pontuações finais ao quadrado?T

Talvez overfitting seja feito. Significando que pontuações muito grandes dão muita confiança? É escolhido para obter um aluno fraco? Qual é uma explicação natural para essa escolha da função complexidade?

Ric
fonte

Respostas:

7

Isso faz sentido para mim.

Vou me concentrar no caso gaussiano. Aqui cada árvore se ajusta aos resíduos do modelo atual e a atualização do modelo é . A idéia de um reforço de gradiente é reduzir cuidadosa e lentamente o viés do modelo, adicionando essas árvores uma a uma.M i + 1 = M i + α T iTiMi+1=Mi+αTi

Nesse caso, um grande valor de corresponderia a um nó terminal (folha), fornecendo uma atualização muito grande e significativa para o modelo anterior. A idéia do termo de regularização é minimizar esses incidentes de grandes atualizações de árvore única (permitindo apenas se a diminuição na função de perda de modelo for grande o suficiente para compensar a penalidade de regularização). Se uma atualização desse tipo for regularizada para uma única árvore, mas se justificar, será executada em várias atualizações de modelo, de acordo com a filosofia de impulsionar.wi

Esta é uma analogia muito próxima da regressão de crista.

Matthew Drury
fonte
Obrigado, assim você pensa sobre isso da mesma forma como eu faço quando falo sobre um aluno fraco ... fraco no sentido se não levando muito grandes passos ..
Ric
Você poderia ser mais específico para o que é "caso gaussiano"? encaixar uma mistura de gaussianos?
Haitao Du
@ hxd1011 Apenas quero dizer que estamos usando a soma da perda de erros quadrados, também conhecida como probabilidade de log da distribuição gaussiana. O ponto principal é que aqui você pode assumir que está apenas se ajustando aos resíduos.
Matthew Drury
@MatthewDrury, você poderia dar uma olhada nesta pergunta relacionada? Obrigado!! stats.stackexchange.com/questions/229599/…
Haitao Du