Existem várias maneiras de obter uma variável atrasada dentro de um grupo. Primeiro, você deve classificar os dados, para que em cada grupo o tempo seja classificado de acordo.
Primeiro, vamos criar uma amostra data.frame:
> set.seed(13)
> dt <- data.frame(location = rep(letters[1:2], each = 4), time = rep(1:4, 2), var = rnorm(8))
> dt
location time var
1 a 1 0.5543269
2 a 2 -0.2802719
3 a 3 1.7751634
4 a 4 0.1873201
5 b 1 1.1425261
6 b 2 0.4155261
7 b 3 1.2295066
8 b 4 0.2366797
Defina nossa função de atraso:
lg <- function(x)c(NA, x[1:(length(x)-1)])
Em seguida, o atraso da variável dentro do grupo pode ser calculado usando tapply
:
> unlist(tapply(dt$var, dt$location, lg))
a1 a2 a3 a4 b1 b2 b3 b4
NA 0.5543269 -0.2802719 1.7751634 NA 1.1425261 0.4155261 1.2295066
Usando ddply
do pacote plyr :
> ddply(dt, ~location, transform, lvar = lg(var))
location time var lvar
1 a 1 -0.1307015 NA
2 a 2 -0.6365957 -0.1307015
3 a 3 -0.6417577 -0.6365957
4 a 4 -1.5191950 -0.6417577
5 b 1 -1.6281638 NA
6 b 2 0.8748671 -1.6281638
7 b 3 -1.3343222 0.8748671
8 b 4 1.5431753 -1.3343222
Versão mais rápida usando data.table
from package data.table
> ddt <- data.table(dt)
> ddt[,lvar := lg(var), by = c("location")]
location time var lvar
[1,] a 1 -0.1307015 NA
[2,] a 2 -0.6365957 -0.1307015
[3,] a 3 -0.6417577 -0.6365957
[4,] a 4 -1.5191950 -0.6417577
[5,] b 1 -1.6281638 NA
[6,] b 2 0.8748671 -1.6281638
[7,] b 3 -1.3343222 0.8748671
[8,] b 4 1.5431753 -1.3343222
Usando a lag
função do pacote plm
> pdt <- pdata.frame(dt)
> lag(pdt$var)
a-1 a-2 a-3 a-4 b-1 b-2 b-3 b-4
NA 0.5543269 -0.2802719 1.7751634 NA 1.1425261 0.4155261 1.2295066
Usando a lag
função do pacote dplyr
> dt %>% group_by(location) %>% mutate(lvar = lag(var))
Source: local data frame [8 x 4]
Groups: location
location time var lvar
1 a 1 0.5543269 NA
2 a 2 -0.2802719 0.5543269
3 a 3 1.7751634 -0.2802719
4 a 4 0.1873201 1.7751634
5 b 1 1.1425261 NA
6 b 2 0.4155261 1.1425261
7 b 3 1.2295066 0.4155261
8 b 4 0.2366797 1.2295066
As duas últimas abordagens requerem conversão de data.frame
para outro objeto, embora você não precise se preocupar com a classificação. Minha preferência pessoal é a última, que não estava disponível ao escrever a resposta inicialmente.
Atualização: o código data.table foi alterado para refletir os desenvolvimentos do pacote data.table, apontado por @Hibernating.
Atualização 2: Exemplo de dplyr adicionado .
@ mpiktas Apenas para mencionar brevemente dois pequenos descuidos na versão 3 da sua resposta. Em primeiro lugar, a frase "versão mais rápida" foi claramente deixada por erro. Em segundo lugar, a palavra ": =" foi perdida no código. A fixação do último corrige o anterior: =)
fonte
Em vez de seguir todas as
tapply
etapas adicionais, eis uma maneira mais rápida:fonte
Com dplyr
fonte
Você pode querer olhar para o
vars
pacote. Parece que uma regressão automática de vetores (VAR) é o que você pode estar tentando fazer.fonte
Com o DataCombine:
Os dados também precisam ser classificados. Use em
slideBy=-1
vez disso para atrasos.fonte