Eu executei um modelo xgboost. Eu não sei exatamente como interpretar a saída de xgb.importance
.
Qual é o significado de ganho, cobertura e frequência e como os interpretamos?
Além disso, o que significa% Split, RealCover e RealCover? Eu tenho alguns parâmetros extras aqui
Existem outros parâmetros que podem me dizer mais sobre as importâncias de recursos?
Na documentação do R, entendo que o ganho é algo semelhante ao ganho de informações e a frequência é o número de vezes que um recurso é usado em todas as árvores. Não faço ideia do que é a capa.
Eu executei o código de exemplo fornecido no link (e também tentei fazer o mesmo no problema em que estou trabalhando), mas a definição de divisão fornecida lá não correspondia aos números que calculei.
importance_matrix
Saída:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05
fonte
Obrigado Sandeep pela sua resposta detalhada. Gostaria de corrigir que a cobertura é calculada em todas as divisões e não apenas nos nós das folhas.
Vamos seguir um exemplo simples com os dados fornecidos pela biblioteca xgboost.
Saída -
Vamos tentar calcular a cobertura do odor = none na matriz de importância (0,495768965) do despejo de árvores.
A cobertura de cada divisão em que odor = nenhum é usado é 1628.2500 no ID do nó 0-0 e 765.9390 no ID do nó 1-1.
Cobertura total de todas as divisões (somatória na coluna de cobertura no despejo de árvore) = 1628.2500 * 2 + 786.3720 * 2
Cobertura de odor = nenhum na matriz de importância = (1628.2500 + 765.9390) / (1628.2500 * 2 + 786.3720 * 2)
Portanto, temos certeza de que a cobertura é calculada em todas as divisões!
fonte