Faz sentido usar uma variável de data em uma regressão?

16

Não estou acostumado a usar variáveis ​​no formato de data em R. Estou apenas imaginando se é possível adicionar uma variável de data como uma variável explicativa em um modelo de regressão linear. Se for possível, como podemos interpretar o coeficiente? É o efeito de um dia na variável resultado?

Veja minha essência com um exemplo do que estou tentando fazer.

PAC
fonte
3
Uma data pode ser convertida em um número.
minha impressão é que R faz isso automaticamente
PAC
3
Mas os números resultantes geralmente são enormes, o que pode levar a problemas. Melhor se converter, por exemplo, em intervalos de tempo (horas ou dias ou ...) desde o início das medições. Isso também facilita a interpretação da interceptação.
Roland
3
Converta em fator (para obter efeitos fixos do dia) ou converta para numérico e redimensione novamente, para que o valor do primeiro dia seja 0 para obter um efeito linear de dias desde a origem.
Thomas
11
Essa é realmente uma boa pergunta. Eu acho que é ao mesmo tempo uma questão estatística e uma questão de programação. A questão da programação é como R lida com datas quando colocamos datas como uma variável explicativa em um modelo de regressão e a questão estatística é sobre a interpretação exata do coeficiente.
PAC

Respostas:

17

Com base nos comentários anteriores no Stack Overflow:

Sim, faz sentido. Aqui, abordo a questão geral e fico feliz em deixar que os especialistas em R preencham os detalhes cruciais. Na minha opinião, como agora é validado cruzadamente, não devemos nos concentrar muito no software favorito do pôster, por mais importante que seja para pessoas que pensam da mesma forma.

Datas em qualquer software, se não numérico, podem ser convertidas em variáveis ​​numéricas, expressas em anos, dias, milissegundos ou qualquer outra coisa desde a origem de algum tempo. O coeficiente associado a cada data possui unidades denominadoras, quaisquer que sejam as unidades da data. As unidades numeradoras dependem das da resposta ou variável dependente. (As funções de link sem identidade complicam isso, naturalmente.)

No entanto, geralmente faz mais sentido quando as datas são alteradas para uma origem que faz sentido para o estudo. Geralmente, mas não necessariamente, a origem deve ser uma data dentro do período de estudo ou muito próxima a ela.

Talvez o caso mais simples seja a regressão linear em uma variável de data em anos. Aqui uma regressão de alguns responseon dateexpressa como datas como 2000 ou 2010 requer uma interceptação que é o valor de responseno ano 0. Deixando de lado o detalhe de calendário que não havia tal ano, tal interceptação é muitas vezes absurdamente grande positivo ou negativo, que é lógica, mas uma distração na interpretação e apresentação (mesmo para públicos bem informados).

Em um exemplo real do trabalho com estudantes de graduação, o número de ciclones por ano em uma determinada área estava aumentando levemente com a data e uma tendência linear parecia uma primeira facada razoável. A interceptação da regressão foi um grande número negativo, que causou muita confusão até que se percebesse que isso era, como sempre, uma extrapolação para o ano 0. A mudança da origem para 2000 produziu melhores resultados. (Na verdade, uma regressão de Poisson garantindo previsões positivas foi ainda melhor, mas essa é uma história diferente.)

Regressar date - 2000ou o que quer que seja é, portanto, uma boa ideia. Os detalhes substantivos de um estudo geralmente indicam uma boa data-base, ou seja, uma nova origem.

O uso de outros modelos e / ou outros preditores não prejudica esse princípio; apenas o obscurece.

Também é uma boa idéia fazer um gráfico dos resultados usando as datas mais fáceis de se pensar. Essas podem ser as datas originais; isso não é uma contradição, pois é exatamente o mesmo princípio de usar o que é mais fácil de se pensar.

Um pouco de reflexão mostra que o princípio é muito mais geral. Muitas vezes, estamos em melhor situação (com 20 anos) ou algo parecido, para evitar previsões lógicas, mas difíceis para a idade 0.

EDIT 21 de março de 2019 (original em 29 de julho de 2013): Esses argumentos foram discutidos no contexto da Stata em Cox, NJ 2015. Espécies de origem. Stata Journal 15: 574-587 veja aqui

EDIT 2 também em 4 dez 2015 @whuber nos comentários também levanta a importante questão da precisão numérica. Freqüentemente, as unidades de tempo são boas e as datas ou datas resultantes podem ser muito grandes, levantando questões importantes para somas de quadrados e assim por diante. Ele cita um exemplo de R.. Ao qual podemos acrescentar (por exemplo) que as datas em Stata são milissegundos desde o início de 1960. Esse problema não é de forma alguma específico para datas, pois pode surgir geralmente com números muito grandes. ou muito pequeno, mas também vale a pena sinalizar.

Nick Cox
fonte
11
Economometricamente falando, a data é frequentemente usada como proxy para uma variável incomensurável, ou simplesmente dados que você não pode obter facilmente. Isso pode ser observado no aumento da taxa de vendas de um determinado produto de uma nova empresa ao longo do tempo, à medida que o reconhecimento da marca aumenta. Como você provavelmente não possui uma métrica para reconhecimento de marca, a data pode ser usada como proxy. Isso daria aos seus outros regressores coeficientes "mais realistas". ** TL: DR ** você deve ter cuidado ao usar a data em sua regressão sem pensar em que fatores não medidos a data pode ser correlacionada e que afetaria sua variável independente
scott
11
Bom conselho. Suponho que (em função de) a data do calendário seja tipicamente um proxy para algum processo no tempo que é difícil de capturar de outra forma, de modo que o ponto se estende muito além da econometria.
27613 Nick Cox
11
Gosto tanto de senos e co-senos quanto qualquer um, mas que amostragem de problemas entre disciplinas leva a esse julgamento?
24613 Nick Cox
11
Se estiver interessado, consulte stata-journal.com/sjsearch.html?choice=keyword&q=season para obter links para alguns dos meus trabalhos sobre sazonalidade.
Nick Cox
3
R1 1
5

Como foi dito acima, com dimensionamento adequado, as datas são ótimos regressores. É menos provável que os efeitos no tempo sejam lineares do que as covariáveis ​​típicas, então quase sempre uso splines de regressão no tempo. Algumas tendências de tempo complexas exigem muitos nós (por exemplo, 7 ou mais) para serem ajustadas. As splines cúbicas restritas (splines naturais) fornecem extrapolação linear mais segura além do final dos tempos observados, embora a extrapolação raramente seja completamente segura.

Frank Harrell
fonte