Comparação de conjuntos de séries temporais

10

Eu tenho três conjuntos de dados de séries temporais que estou procurando comparar. Eles foram tomados em 3 períodos separados de cerca de 12 dias. São as médias, máximas e mínimas de contagens de cabeça obtidas em uma biblioteca da faculdade durante as semanas finais. Eu tive que fazer média, max e min porque a contagem horária de cabeças não era contínua (consulte Lacunas regulares de dados em uma série temporal ).

Agora, o conjunto de dados fica assim. Há um ponto de dados (médio, máximo ou min) por noite, durante 12 noites. Existem três semestres para os quais os dados foram coletados, apenas nos períodos de 12 dias de preocupação. Por exemplo, primavera de 2010, outono de 2010 e maio de 2011 têm um conjunto de 12 pontos. Aqui está um exemplo de gráfico:

insira a descrição da imagem aqui

Sobrepus os semestres porque quero ver como os padrões mudam de semestre para semestre. No entanto, como me disseram no thread vinculado , não é uma boa idéia dar um tapa na cara dos semestres, pois não há dados no meio.

A questão é: qual técnica matemática posso usar para comparar o padrão de frequência de cada semestre? Há algo de especial nas séries cronológicas que devo fazer ou posso simplesmente considerar as diferenças percentuais? Meu objetivo é dizer que o uso da biblioteca nesses dias está aumentando ou diminuindo; Só não tenho certeza de que técnica (s) devo usar para mostrá-lo.

induvidyul
fonte

Respostas:

8

A ANOVA de efeitos fixos (ou seu equivalente de regressão linear) fornece uma poderosa família de métodos para analisar esses dados. Para ilustrar, aqui está um conjunto de dados consistente com as plotagens de média HC por noite (uma plotagem por cor):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA de countcontra daye colorproduz esta tabela:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

O modelvalor p de 0,0000 mostra que o ajuste é altamente significativo. O dayvalor p de 0,0000 também é altamente significativo: você pode detectar alterações do dia a dia. No entanto, o colorvalor de p (semestre) de 0,2001 não deve ser considerado significativo: você não pode detectar uma diferença sistemática entre os três semestres, mesmo após controlar a variação do dia a dia.

O teste HSD de Tukey ("diferença significativa honesta") identifica as seguintes alterações significativas (entre outras) nas médias diárias (independentemente do semestre) no nível 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Isso confirma o que os olhos podem ver nos gráficos.

Como os gráficos saltam um pouco, não há como detectar correlações diárias (correlação serial), que é o ponto inteiro da análise de séries temporais. Em outras palavras, não se preocupe com as técnicas de séries temporais: não há dados suficientes aqui para fornecer uma visão maior.

Sempre se deve perguntar quanto acreditar nos resultados de qualquer análise estatística. Vários diagnósticos de heterocedasticidade (como o teste de Breusch-Pagan ) não mostram nada de ruim. Os resíduos não parecem muito normais - eles se agrupam em alguns grupos - então todos os valores de p devem ser tomados com um grão de sal. No entanto, eles parecem fornecer orientações razoáveis ​​e ajudam a quantificar o sentido dos dados que podemos obter observando os gráficos.

Você pode executar uma análise paralela nos mínimos diários ou nos máximos diários. Certifique-se de começar com um gráfico semelhante ao guia e verificar a saída estatística.

whuber
fonte
+1, para demonstração de técnicas simples, porém poderosas. Estou muito curioso, como você conseguiu extrair os valores do gráfico? Algum software ou uma punição por um aluno que se comporta mal? :)
mpiktas
11
@mp Digitalizei pontos em cima de uma captura de tela do gráfico, extraí suas coordenadas com o software GIS, transformei as coordenadas em uma planilha e depois importei-a para um pacote de estatísticas. Leva apenas alguns minutos. Esse método pode ser útil quando os únicos dados que você possui estão na forma de um gráfico ou mapa.
whuber
@whuber Isso é legal! Eu não estava ciente disso.
suncoolsu
@whuber Gostaria de saber qual é o efeito de ter 3 séries de 12 leituras autocorrelacionadas em comparação com 36 observações independentes. Eu acho que realmente não temos 35 graus de liberdade para dividir. As probabilidades em que você reflete são baseadas na razão entre uma variável qui-quadrado não central e uma variável qui-quadrado central. Há algo que estou perdendo aqui? Bom trabalho para extrair os números da trama. Existe um programa específico que você pode consultar para nos ajudar nesse sentido.
IrishStat
11
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0
0

Sarah, pegue seus 36 números (12 valores por ciclo; 3 ciclos) e construa um modelo de regressão com 11 indicadores refletindo o possível efeito da semana do semestre e, em seguida, identifique qualquer série de intervenção (pulsos, mudanças de nível) necessária para renderizar o a média dos resíduos seja 0,0 em todos os lugares ou, pelo menos, não seja estatisticamente diferente de 0,0. Por exemplo, se você identificar uma mudança de nível no período 13, isso pode sugerir uma diferença estatisticamente significativa entre a média do primeiro semestre, ou seja, os 12 primeiros valores) versus a média dos dois últimos semestres (últimos 24 valores). Você pode extrair inferência ou testar a hipótese de nenhuma semana do efeito do semestre. Um bom pacote de séries temporais pode ser útil a esse respeito. Caso não seja necessário encontrar alguém para fornecer ajuda nessa arena analítica.

IrishStat
fonte
11
Isso soa como uma descrição da ANOVA bidirecional (dias por ciclos) seguida de testes planejados de 11 pares de dias. É provável que um software estatístico antigo simples seja mais flexível e poderoso do que o software especializado de séries temporais; certamente será mais fácil. BTW, os índices são dias (no período do exame), não semana do semestre.
whuber
Também posso usar a ANOVA para comparar máximos e mínimos por dia? Ou isso se aplica apenas aos meios?
induvidyul
@ Sarah Pode ser aplicável aos mínimos e máximos. No entanto, essas estatísticas tendem a ser muito mais variáveis ​​do que as médias, portanto, é menos provável que você consiga detectar alterações nelas ao longo do tempo ou entre semestres. Seu gráfico deixa claro que os meios diferem significativamente. Se possível, faça a ANOVA de três maneiras , incorporando a hora do dia e usando as contagens horárias originais em vez de suas médias diárias.
whuber
@ whuber: Foi-me dito que reunir os dados por hora não é utilizável, uma vez que eles só foram gravados das 12h às 6h. Veja minha pergunta anterior Lacunas regulares de dados em uma série temporal .
induvidyul
@ Sarah Estou falando de algo diferente: modelar a dependência em termos de três fatores: período (3 deles), dia no período (12 deles) e hora do dia (6 deles). Você pode até explicar as correlações entre as horas, mas isso pode não ser necessário para seus propósitos. Independentemente disso, eu estou não defendendo vendo cada período como um séries interrompidas de 12 * 24 pontos: há muitos dados em falta.
whuber