Eu li que o uso do quadrado R para séries temporais não é apropriado porque, em um contexto de série temporal (eu sei que existem outros contextos), o quadrado R não é mais exclusivo. Por que é isso? Tentei procurar isso, mas não encontrei nada. Normalmente, não dou muito valor ao R-quadrado (ou R-quadrado ajustado) quando avalio meus modelos, mas muitos de meus colegas (ou seja, Business Majors) estão absolutamente apaixonados por R-Squared e quero poder explique a eles por que o R-Squared não é apropriado no contexto de séries temporais.
regression
time-series
r-squared
mmmmmmmmmm
fonte
fonte
Respostas:
Alguns aspectos da questão:
Se alguém nos fornece um vetor de números uma matriz conformável de números , não precisamos saber qual é a relação entre eles para executar alguma álgebra de estimativa, tratando como a variável dependente. A álgebra resultará, independentemente de esses números representarem séries transversais ou temporais ou dados de painel, ou se a matriz contém valores defasados de etc.y X y X y
A definição fundamental do coeficiente de determinação éR2
onde é a soma dos resíduos quadráticos de algum procedimento de estimativa e é a soma dos desvios quadrados da variável dependente da média da amostra.SSr e s SSt o t
Combinando, o sempre será calculado exclusivamente, para uma amostra de dados específica, uma formulação específica da relação entre as variáveis e um procedimento de estimativa específico, sujeito apenas à condição de que o procedimento de estimativa seja tal que forneça estimativas pontuais das quantidades desconhecidas envolvidas (e, portanto, estimativas pontuais da variável dependente e, portanto, estimativas pontuais dos resíduos). Se algum desses três aspectos mudar, o valor aritmético de geralmente mudará - mas isso vale para qualquer tipo de dado, não apenas para séries temporais.R2 R2
Portanto, o problema com e séries temporais não é "único" ou não (uma vez que a maioria dos procedimentos de estimativa para dados de séries temporais fornece estimativas pontuais). A questão é se a estrutura de especificação de séries temporais "usual" é tecnicamente amigável para o e se fornece algumas informações úteis.R2 R2 R2
A interpretação de como "proporção da variação dependente da variável explicada" depende criticamente dos resíduos que chegam a zero. No contexto da regressão linear (em qualquer tipo de dados) e da estimativa dos mínimos quadrados ordinários, isso é garantido apenas se a especificação incluir um termo constante na matriz do regressor (um "desvio" na terminologia de séries temporais). Nos modelos de séries temporais autoregressivas, em muitos casos, uma deriva não está incluída.R2
De maneira mais geral, quando nos deparamos com dados de séries temporais "automaticamente", começamos a pensar em como as séries temporais evoluirão para o futuro. Portanto, tendemos a avaliar um modelo de série temporal baseado mais em quão bem ele prediz valores futuros do que em quão bem ele se ajusta aos valores passados . Mas o reflete principalmente o último, não o primeiro. O fato bem conhecido de que não diminui o número de regressores significa que podemos obter um ajuste perfeito continuando a adicionar regressores ( qualquer regressor, ou seja, qualquer série de números, talvez totalmente não relacionado conceitualmente à variável dependente) . A experiência mostra que um ajuste perfeito obtido assim, vai também dar abismaisR2 R2 previsões fora da amostra.
Intuitivamente, esse trade-off talvez contra-intuitivo acontece porque, ao capturar toda a variabilidade da variável dependente em uma equação estimada, transformamos a variabilidade não sistemática em sistemática, no que diz respeito à previsão (aqui, "não sistemático" deve ser entendido em relação ao nosso conhecimento - de um ponto de vista filosófico puramente determinístico, não existe "variabilidade não sistemática", mas, na medida em que nosso conhecimento limitado nos obriga a tratar alguma variabilidade como "não sistemática", a tentativa de transformá-la em sistemática componente, traz desastre de previsão).
fonte