Explicação do min_child_weight no algoritmo xgboost

23

A definição do parâmetro min_child_weight no xgboost é fornecida como:

soma mínima do peso da instância (hessian) necessária em uma criança. Se a etapa de partição em árvore resultar em um nó folha com a soma do peso da instância menor que min_child_weight, o processo de criação desistirá de particionar mais. No modo de regressão linear, isso simplesmente corresponde ao número mínimo de instâncias necessárias para estar em cada nó. Quanto maior, mais conservador será o algoritmo.

Li algumas coisas no xgboost, incluindo o artigo original (consulte a fórmula 8 e a logo após a equação 9), esta pergunta e muitas coisas a ver com o xgboost que aparecem nas primeiras páginas de uma pesquisa no google. ;)

Basicamente, eu ainda não estou feliz por que estamos impondo uma restrição à soma do hessian? Meu só pensava no minuto a partir do trabalho original é que ele se relaciona com a secção do esboço quantil ponderada (e a reformulação da equação 3 como perda quadrado ponderado) que tem hi como o 'peso' de cada exemplo.

Uma outra pergunta diz respeito a por que é simplesmente o número de instâncias no modo de regressão linear? Eu acho que isso está relacionado à segunda derivada da equação da soma dos quadrados?

maw501
fonte

Respostas:

42

Para uma regressão, a perda de cada ponto em um nó é

12(yiyi^)2

yi^1

Para uma regressão logística binária, o hessian para cada ponto em um nó conterá termos como

σ(yi^)(1σ(yi^))

σyi^σ(yi^)

O Hessian é uma coisa sensata a ser usada para regularizar e limitar a profundidade das árvores. Para a regressão, é fácil ver como você pode se ajustar demais se estiver sempre dividindo os nós com, digamos, apenas 1 observação. Da mesma forma, para classificação, é fácil ver como você pode se ajustar demais se insistir em dividir até que cada nó esteja puro.

hahdawg
fonte
Obrigado pela resposta, não posso lhe dar um voto positivo devido à baixa reputação.
precisa saber é
1
Oi @ maw501: Sem problemas, eu posso. Boa resposta Hahdawg!
Catbuilts
Portanto, em um caso de dados altamente desequilibrados, qual é o seu intervalo proposto para o min_child_weight?
Mahdi Baghbanzadeh
Quando no conjunto de dados desequilibrado, min_child_weight também deve incluir pesos? Obrigado! @hahdawg
HanaKaze 22/03