Estou validando cruzadamente um modelo que está tentando prever uma contagem. Se esse fosse um problema de classificação binária, eu calcularia a AUC fora da dobra e, se esse fosse um problema de regressão, calcularia o RMSE ou o MAE fora da dobra.
Para um modelo de Poisson, que métricas de erro posso usar para avaliar a "precisão" das previsões fora da amostra? Existe uma extensão de AUC de Poisson que analisa quão bem as previsões ordenam os valores reais?
Parece que muitas competições do Kaggle por contagens (por exemplo, número de votos úteis que uma revisão de yelp terá ou número de dias que um paciente passará no hospital) usam o erro quadrático médio do log ou o RMLSE.
/ Edit: Uma coisa que eu tenho feito é calcular deciles dos valores previstos e, em seguida, ver as contagens reais, ordenadas por decil. Se o decil 1 é baixo, o decil 10 é alto e os decilitros estão aumentando estritamente, eu chamo o modelo de "bom", mas tenho tido problemas para quantificar esse processo e convenci de que há um melhor aproximação.
/ Edit 2: estou procurando uma fórmula que aceite valores reais e previstos e retorne alguma métrica "erro" ou "precisão". Meu plano é calcular essa função nos dados que não estão dobra durante a validação cruzada e depois usá-la para comparar uma grande variedade de modelos (por exemplo, uma regressão de Poisson, uma floresta aleatória e um GBM ).
Por exemplo, uma dessas funções é RMSE = sqrt(mean((predicted-actual)^2))
. Outra função seria a AUC . Nenhuma função parece correta para dados de poisson.
Respostas:
Existem algumas regras de pontuação estritas e adequadas para os dados de contagem que você pode usar. Regras de pontuação são penalidades introduzidas com sendo a distribuição preditiva e o valor observado. Eles têm várias propriedades desejáveis, em primeiro lugar que uma previsão mais próxima da verdadeira probabilidade sempre recebe menos penalidade e existe uma melhor (única) melhor previsão e é quando a probabilidade prevista coincide com a verdadeira probabilidade. Assim, minimizar a expectativa de significa relatar as verdadeiras probabilidades. Veja também Wikipedia .P y s ( y , P )s(y,P) P y s(y,P)
Freqüentemente, toma-se uma média daqueles sobre todos os valores previstos,
Qual regra a ser adotada depende do seu objetivo, mas darei uma caracterização aproximada quando cada uma for boa para ser usada.
No que segue, uso para a função de massa de probabilidade preditiva e a função de distribuição cumulativa preditiva. Um passa por todo o suporte da distribuição de contagem (ou seja, ). indica uma função indicadora. e são a média e o desvio padrão da distribuição preditiva (que geralmente são quantidades estimadas diretamente nos modelos de dados de contagem).f(y) Pr(Y=y) F(y) ∑k 0,1,…,∞ I μ σ
Regras de pontuação estritamente adequadas
Outras regras de pontuação (não tão apropriadas, mas frequentemente usadas)
Exemplo de código R para regras estritamente apropriadas:
fonte
-log(f(y))
. O-
sinal realmente deveria estar lá? No link da wikipedia da regra de pontuação ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ), a pontuação logarítmica como sem sinal negativo:L(r,i)=ln(ri)
isso é normal? Finalmente, nesse caso, uma pontuação mais alta é melhor ou pior?