Não estou acostumado a usar variáveis no formato de data em R. Estou apenas imaginando se é possível adicionar uma variável de data como uma variável explicativa em um modelo de regressão linear. Se for possível, como podemos interpretar o coeficiente? É o efeito de um dia na variável resultado?
Veja minha essência com um exemplo do que estou tentando fazer.
r
regression
time-series
PAC
fonte
fonte
Respostas:
Com base nos comentários anteriores no Stack Overflow:
Sim, faz sentido. Aqui, abordo a questão geral e fico feliz em deixar que os especialistas em R preencham os detalhes cruciais. Na minha opinião, como agora é validado cruzadamente, não devemos nos concentrar muito no software favorito do pôster, por mais importante que seja para pessoas que pensam da mesma forma.
Datas em qualquer software, se não numérico, podem ser convertidas em variáveis numéricas, expressas em anos, dias, milissegundos ou qualquer outra coisa desde a origem de algum tempo. O coeficiente associado a cada data possui unidades denominadoras, quaisquer que sejam as unidades da data. As unidades numeradoras dependem das da resposta ou variável dependente. (As funções de link sem identidade complicam isso, naturalmente.)
No entanto, geralmente faz mais sentido quando as datas são alteradas para uma origem que faz sentido para o estudo. Geralmente, mas não necessariamente, a origem deve ser uma data dentro do período de estudo ou muito próxima a ela.
Talvez o caso mais simples seja a regressão linear em uma variável de data em anos. Aqui uma regressão de alguns
response
ondate
expressa como datas como 2000 ou 2010 requer uma interceptação que é o valor deresponse
no ano 0. Deixando de lado o detalhe de calendário que não havia tal ano, tal interceptação é muitas vezes absurdamente grande positivo ou negativo, que é lógica, mas uma distração na interpretação e apresentação (mesmo para públicos bem informados).Em um exemplo real do trabalho com estudantes de graduação, o número de ciclones por ano em uma determinada área estava aumentando levemente com a data e uma tendência linear parecia uma primeira facada razoável. A interceptação da regressão foi um grande número negativo, que causou muita confusão até que se percebesse que isso era, como sempre, uma extrapolação para o ano 0. A mudança da origem para 2000 produziu melhores resultados. (Na verdade, uma regressão de Poisson garantindo previsões positivas foi ainda melhor, mas essa é uma história diferente.)
Regressar
date - 2000
ou o que quer que seja é, portanto, uma boa ideia. Os detalhes substantivos de um estudo geralmente indicam uma boa data-base, ou seja, uma nova origem.O uso de outros modelos e / ou outros preditores não prejudica esse princípio; apenas o obscurece.
Também é uma boa idéia fazer um gráfico dos resultados usando as datas mais fáceis de se pensar. Essas podem ser as datas originais; isso não é uma contradição, pois é exatamente o mesmo princípio de usar o que é mais fácil de se pensar.
Um pouco de reflexão mostra que o princípio é muito mais geral. Muitas vezes, estamos em melhor situação (com 20 anos) ou algo parecido, para evitar previsões lógicas, mas difíceis para a idade 0.
EDIT 21 de março de 2019 (original em 29 de julho de 2013): Esses argumentos foram discutidos no contexto da Stata em Cox, NJ 2015. Espécies de origem. Stata Journal 15: 574-587 veja aqui
EDIT 2 também em 4 dez 2015 @whuber nos comentários também levanta a importante questão da precisão numérica. Freqüentemente, as unidades de tempo são boas e as datas ou datas resultantes podem ser muito grandes, levantando questões importantes para somas de quadrados e assim por diante. Ele cita um exemplo de R.. Ao qual podemos acrescentar (por exemplo) que as datas em Stata são milissegundos desde o início de 1960. Esse problema não é de forma alguma específico para datas, pois pode surgir geralmente com números muito grandes. ou muito pequeno, mas também vale a pena sinalizar.
fonte
R
Como foi dito acima, com dimensionamento adequado, as datas são ótimos regressores. É menos provável que os efeitos no tempo sejam lineares do que as covariáveis típicas, então quase sempre uso splines de regressão no tempo. Algumas tendências de tempo complexas exigem muitos nós (por exemplo, 7 ou mais) para serem ajustadas. As splines cúbicas restritas (splines naturais) fornecem extrapolação linear mais segura além do final dos tempos observados, embora a extrapolação raramente seja completamente segura.
fonte