Métrica de avaliação de previsão para dados longitudinais / em painel

11

Eu gostaria de avaliar vários modelos diferentes que fornecem previsões de comportamento em um nível mensal. Os dados são equilibrados e 100.000 e T = 12. O resultado é assistir a um concerto em um determinado mês; portanto, é zero para ~ 80% das pessoas em qualquer mês, mas há uma longa cauda direita de usuários pesados. As previsões que tenho parecem não respeitar a natureza da contagem do resultado: shows fracionários são predominantes.n=T=

Não sei nada sobre os modelos. I apenas observar 6 diferentes previsões de caixa preta y 1 , . . . , Y 6 para cada pessoa por mês. Eu tenho um ano extra de dados que os criadores de modelos não possuíam para a estimativa (embora os frequentadores de shows continuem os mesmos) e gostaria de avaliar onde cada um apresenta um bom desempenho (em termos de exatidão e precisão). Por exemplo, algum modelo prevê bem os freqüentadores de shows, mas fracassa nas batatas de sofá? A previsão para janeiro é melhor que a previsão para dezembro? Como alternativa, seria bom saber que as previsões me permitem classificar as pessoas corretamente em termos de valores reais, mesmo que a magnitude exata não seja confiável.y^1,...,y^6

Meu primeiro pensamento foi para executar uma efeitos fixos regressões de reais em manequins previstos e tempo e olhar para os RMSEs ou para cada modelo. Mas isso não responde à pergunta sobre onde cada modelo se sai bem ou se as diferenças são significativas (a menos que eu inicialize o RMSE). A distribuição do resultado também me preocupa com essa abordagem.R2

Minha segunda idéia foi dividir o resultado em 0, 1-3 e 3+ e calcular a matriz de confusão, mas isso ignora a dimensão do tempo, a menos que eu faça 12 delas. Também é bastante grosseiro.

Estou ciente dos comandos Stata concordde TJ Steichen e NJ Cox - que tem a by()opção, mas isso exigiria o recolhimento dos dados para totais anuais. Isso calcula o Índice de correlação de concordância de Lin com intervalos de confiança, entre outras estatísticas úteis. O CCC varia de -1 a 1, com concordância perfeita em 1.

csomersdclusterc=0.5c=1

Como você resolveria esse problema? Você sugeriria o cálculo de estatísticas como MAPE, comuns na previsão?


Coisas úteis encontradas até agora:

  • Slides em uma versão de medida repetida do coeficiente de correlação de concordância de Lin
Dimitriy V. Masterov
fonte
Precisamos saber mais sobre o comportamento, ele é valor ordinal / binário / contínuo? Como esse experimento é longitudinal, seu interesse reside em prever ou prever resultados em um indivíduo? Modelos de efeitos mistos são usados ​​para inferência, não para previsão. Eles não funcionam porque, para prever , você precisa de uma estimativa do efeito aleatório.
Adamo
O comportamento real é contado ou contínuo. As previsões são todas contínuas. Gostaria de ver quão boas são as previsões mensais em nível individual.
Dimitriy V. Masterov 6/06/2013
Yi=12^=f(Xi=12,11,,1,Yi=11,10,,1Yi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)
iY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t
estimativa implica estimativa de parâmetro que pode fazer parte do "treinamento" de um modelo preditivo, mas acho que você quer dizer que sua amostra é usada para treinar um modelo preditivo. O que você está declarando aqui é um processo semi-markov condicional e possui aplicativos exclusivos na previsão.
Adamo

Respostas:

1

Para avaliar a capacidade preditiva de uma previsão semi-Markov, existem vários métodos disponíveis, dependendo do tamanho da amostra e de outras informações disponíveis.

Para avaliar qualquer modelo preditivo / de previsão, você tem a opção de validação cruzada (especificamente, validação cruzada de amostra dividida em separado ou iterativa), em que um modelo é estimado em uma amostra de "treinamento" e a incerteza do modelo avaliada em uma "validação" amostra. Dependendo da distribuição do resultado, várias medidas estão disponíveis, pelas quais você pode selecionar um modelo entre um painel de modelos elegíveis. Para medidas não paramétricas gerais para a seleção de modelos, as pessoas realmente gostam da AIC e da BIC, especialmente a última.

O CCC e o c-statistics são usados ​​para avaliar previsões binárias de seção transversal, como em testes / ensaios, então você terá que descartá-las se estiver prevendo, digamos, IMC ou QI. Eles medem a calibração (como o teste Hosmer Lemeshow) e o que é chamado de capacidade de estratificação de risco. Nenhuma conexão intuitiva com resultados contínuos por lá, pelo menos até onde eu sei.

Por outro lado, o RMSE é usado para avaliar previsões contínuas (exceto o caso de previsão de risco no qual o RMSE é referido como uma pontuação de Brier, uma ferramenta de avaliação de modelo bastante arcaica e obsoleta). Essa é uma excelente ferramenta e provavelmente é usada para calibrar mais de 80% dos modelos preditivos que encontramos diariamente (previsões do tempo, classificações de energia, MPG em veículos, etc.).

Uma ressalva na validação de amostra dividida ou reamostragem para avaliar modelos de previsão é que você só pode estar interessado em resultados futuros quando sua amostra deixa você prever resultados passados. Não faça isso! Não reflete a aplicação dos modelos e pode influenciar bastante a seleção de maneira negativa. Avance todas as informações disponíveis e preveja resultados futuros não observados em todos os casos disponíveis.

Praticamente qualquer livro de modelos lineares aplicados cobrirá previsão, RMSE e as nuances de modelos de treinamento e validação. Um bom começo seria Kutner, Nachtsheim, Neter, Li, também considerar a "Análise de séries temporais" de Diggle, a Análise longitudinal de dados de Diggle Heagerty Zeger Li, "Análise longitudinal de dados" e, potencialmente, "Estratégias de modelagem de regressão" de Harrell.

AdamO
fonte
O CCC e o Harrell's c podem ser usados ​​com resultados contínuos. O CCC também tem uma implementação de medidas repetidas. Veja as referências / links que adicionei na pergunta.
Dimitriy V. Masterov
Não importa. Você não está classificando.
Adamo