Importância do recurso XGBoost - o ganho e a cobertura são altos, mas a frequência é baixa

8

Eu li esta pergunta: Como interpretar a saída de importância do XGBoost? sobre os três tipos diferentes de importância dos recursos: frequência (chamada "peso" no Python XGBoost), ganho e cobertura.

No meu caso, eu tenho um recurso, Gender, que tem uma importância muito baixa com base na métrica de frequência, mas é o recurso mais importante de longe com base nas métricas de ganho e de cobertura.

Eu sei que o gênero deve ser importante para o que estou prevendo. Se eu plotar apenas sexo versus o alvo, há uma correlação clara. Não estou surpreso que seja a característica mais importante. Eu só quero saber por que não é considerado um recurso importante com base na métrica de frequência.

Vic
fonte

Respostas:

8

Eu só quero saber por que não é considerado um recurso importante com base na métrica de frequência.

Provavelmente, a variável sexo tem um número muito menor de valores possíveis (geralmente apenas dois: masculino / feminino ou 0/1, dependendo da representação) em comparação com outros preditores no seu conjunto de dados.

Se o gênero é apenas binário no seu caso, significa que ele pode ser usado no máximo uma vez em cada árvore, enquanto, digamos, a idade pode aparecer com muito mais frequência em diferentes níveis das árvores.

aivanov
fonte