Uma floresta aleatória pode ser treinada para prever adequadamente os dados de contagem? Como isso aconteceria? Eu tenho uma gama bastante extensa de valores para que a classificação não faça sentido. Se eu usasse regressão, simplesmente truncaria os resultados? Estou bastante perdido aqui. Alguma ideia?
r
regression
random-forest
prediction
count-data
JEquihua
fonte
fonte
Respostas:
Existe um pacote R chamado
mobForest
que pode ajustar uma floresta aleatória real para dados de contagem. É baseado emmod()
(particionamento recursivo baseado em modelo) noparty
pacote. Ele executa a regressão de Poisson se ofamily
argumento for especificado comopoisson()
. O pacote não está mais no repositório CRAN, mas as versões disponíveis anteriormente podem ser obtidas no arquivo.Se você não estiver restrito a florestas / ensacamentos aleatórios, também estará disponível uma versão de reforço para os dados da contagem. Ou seja,
gbm
(modelos de regressão ampliada generalizada). Também pode ajustar-se a um modelo de Poisson.fonte
Eu vejo algumas possibilidades.
fonte
Bem, não é uma floresta aleatória, mas o CatBoost suporta uma função de perda de poisson que pode ser usada para regressão de contagem com árvores aumentadas:
https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/
fonte