Construindo uma série temporal que inclui várias observações para cada data

11

Estou tentando aplicar uma série temporal aos dados amostrados trimestralmente (biomassa animal) durante um período de 10 anos com 3 repetições por trimestre. Então, 40 datas, mas 120 observações totais.

Eu li até SARIMA'a na análise de séries temporais de Shumway e Stoffer e suas aplicações, bem como vasculhei Woodward, et. Análise Aplicada de Séries Temporais de al., e meu entendimento é que cada modelo é baseado em uma única observação em cada ponto da série temporal.

PERGUNTA: Como posso incluir a variação em cada observação no meu modelo? Eu poderia criar uma série sobre a média, mas perderia a variação a cada observação e acho que isso é fundamental para a minha compreensão do que está acontecendo.


fonte
O SARIMA pode ser estendido para casos multivariados, que podem ser adequados para você. A palavra-chave neste caso é VAR. Isso significa que você observa um vetor de números em vez de um número para cada período de tempo.
precisa saber é o seguinte

Respostas:

4

Dependendo do que exatamente você quer dizer com "3 repetições por trimestre", um modelo de dados em painel ( wikipedia ) pode fazer sentido. Isso significa que você faz três medições a cada trimestre, uma de cada uma das três fontes distintas que permanecem as mesmas ao longo do tempo. Seus dados seriam parecidos com:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Se é isso que você está vendo, existem vários modelos para trabalhar com dados do painel. Aqui está uma apresentação decente que cobre alguns dos R básicos que você usaria para examinar os dados do painel. Este documento entra em um pouco mais de profundidade, embora do ponto de vista econômico.

No entanto, se seus dados não se encaixam perfeitamente nas metodologias de dados do painel, existem outras ferramentas disponíveis para "dados agrupados". Uma definição deste documento (pdf) :

Agrupamento de dados significa análise estatística usando várias fontes de dados relacionadas a várias populações. Abrange a média, comparações e interpretações comuns das informações. Diferentes cenários e problemas também surgem dependendo se as fontes de dados e as populações envolvidas são iguais / semelhantes ou diferentes.

Como você pode ver, a partir dessa definição, as técnicas que você usará dependerão do que exatamente você espera aprender com seus dados.

Se eu sugerisse um lugar para você começar, supondo que seus três empates para cada trimestre sejam consistentes ao longo do tempo, eu diria que comece usando um estimador de efeitos fixos (também conhecido como estimador interno) com um modelo de dados em painel do seu dados.

Para o meu exemplo acima, o código seria algo como:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

O que nos dá a seguinte saída:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Aqui podemos ver claramente o efeito do tempo no coeficiente na variável trimestral, bem como o efeito de pertencer ao grupo B ou ao grupo C (em oposição ao grupo A).

Espero que isso aponte para algum lugar na direção certa.

Wilduck
fonte
3

Eu acho isso interessante. Minha sugestão seria calcular a média dos três pontos de dados para obter uma série temporal suave. Como você ressalta, se fizer isso ignorando que fez a média de três observações, está descartando informações. Mas para cada ponto do tempo você pode somar os desvios ao quadrado da média. Agrupe essas somas de quadrados em todos os períodos e divida por n-1 onde n é o número total de pontos usados ​​no cálculo. Se você possui um modelo com estrutura de séries temporais (por exemplo, tendências, componente sazonal, estrutura de dependência de RA), esse cálculo pode ser uma estimativa independente e imparcial da variação do termo de erro no modelo.

Michael R. Chernick
fonte
1
3nn3n2nn-13n-1