Eu gostaria de avaliar vários modelos diferentes que fornecem previsões de comportamento em um nível mensal. Os dados são equilibrados e 100.000 e T = 12. O resultado é assistir a um concerto em um determinado mês; portanto, é zero para ~ 80% das pessoas em qualquer mês, mas há uma longa cauda direita de usuários pesados. As previsões que tenho parecem não respeitar a natureza da contagem do resultado: shows fracionários são predominantes.
Não sei nada sobre os modelos. I apenas observar 6 diferentes previsões de caixa preta y 1 , . . . , Y 6 para cada pessoa por mês. Eu tenho um ano extra de dados que os criadores de modelos não possuíam para a estimativa (embora os frequentadores de shows continuem os mesmos) e gostaria de avaliar onde cada um apresenta um bom desempenho (em termos de exatidão e precisão). Por exemplo, algum modelo prevê bem os freqüentadores de shows, mas fracassa nas batatas de sofá? A previsão para janeiro é melhor que a previsão para dezembro? Como alternativa, seria bom saber que as previsões me permitem classificar as pessoas corretamente em termos de valores reais, mesmo que a magnitude exata não seja confiável.
Meu primeiro pensamento foi para executar uma efeitos fixos regressões de reais em manequins previstos e tempo e olhar para os RMSEs ou para cada modelo. Mas isso não responde à pergunta sobre onde cada modelo se sai bem ou se as diferenças são significativas (a menos que eu inicialize o RMSE). A distribuição do resultado também me preocupa com essa abordagem.
Minha segunda idéia foi dividir o resultado em 0, 1-3 e 3+ e calcular a matriz de confusão, mas isso ignora a dimensão do tempo, a menos que eu faça 12 delas. Também é bastante grosseiro.
Estou ciente dos comandos Stata concord
de TJ Steichen e NJ Cox - que tem a by()
opção, mas isso exigiria o recolhimento dos dados para totais anuais. Isso calcula o Índice de correlação de concordância de Lin com intervalos de confiança, entre outras estatísticas úteis. O CCC varia de -1 a 1, com concordância perfeita em 1.
Como você resolveria esse problema? Você sugeriria o cálculo de estatísticas como MAPE, comuns na previsão?
Coisas úteis encontradas até agora:
- Slides em uma versão de medida repetida do coeficiente de correlação de concordância de Lin
fonte
Respostas:
Para avaliar a capacidade preditiva de uma previsão semi-Markov, existem vários métodos disponíveis, dependendo do tamanho da amostra e de outras informações disponíveis.
Para avaliar qualquer modelo preditivo / de previsão, você tem a opção de validação cruzada (especificamente, validação cruzada de amostra dividida em separado ou iterativa), em que um modelo é estimado em uma amostra de "treinamento" e a incerteza do modelo avaliada em uma "validação" amostra. Dependendo da distribuição do resultado, várias medidas estão disponíveis, pelas quais você pode selecionar um modelo entre um painel de modelos elegíveis. Para medidas não paramétricas gerais para a seleção de modelos, as pessoas realmente gostam da AIC e da BIC, especialmente a última.
O CCC e o c-statistics são usados para avaliar previsões binárias de seção transversal, como em testes / ensaios, então você terá que descartá-las se estiver prevendo, digamos, IMC ou QI. Eles medem a calibração (como o teste Hosmer Lemeshow) e o que é chamado de capacidade de estratificação de risco. Nenhuma conexão intuitiva com resultados contínuos por lá, pelo menos até onde eu sei.
Por outro lado, o RMSE é usado para avaliar previsões contínuas (exceto o caso de previsão de risco no qual o RMSE é referido como uma pontuação de Brier, uma ferramenta de avaliação de modelo bastante arcaica e obsoleta). Essa é uma excelente ferramenta e provavelmente é usada para calibrar mais de 80% dos modelos preditivos que encontramos diariamente (previsões do tempo, classificações de energia, MPG em veículos, etc.).
Uma ressalva na validação de amostra dividida ou reamostragem para avaliar modelos de previsão é que você só pode estar interessado em resultados futuros quando sua amostra deixa você prever resultados passados. Não faça isso! Não reflete a aplicação dos modelos e pode influenciar bastante a seleção de maneira negativa. Avance todas as informações disponíveis e preveja resultados futuros não observados em todos os casos disponíveis.
Praticamente qualquer livro de modelos lineares aplicados cobrirá previsão, RMSE e as nuances de modelos de treinamento e validação. Um bom começo seria Kutner, Nachtsheim, Neter, Li, também considerar a "Análise de séries temporais" de Diggle, a Análise longitudinal de dados de Diggle Heagerty Zeger Li, "Análise longitudinal de dados" e, potencialmente, "Estratégias de modelagem de regressão" de Harrell.
fonte