Que problemas devo observar ao combinar várias séries temporais?

Digamos que eu tenha várias séries temporais, por exemplo, vários registros de temperatura de várias estações em uma região. Quero obter um único registro de temperatura para toda a região com a qual possa descrever aspectos do clima regional. A abordagem intuitiva pode ser simplesmente medir a média de todas as estações a cada passo do tempo, mas meu senso estatístico de aranha (com o qual ainda não estou bem informado ainda) me diz que isso pode não ser tão fácil. Em particular, imagino que a média de toda a região removerá alguns dos extremos de temperatura interessantes, e eu posso ter problemas com a dependência entre estações próximas.

Que outros problemas eu poderia enfrentar se tentasse uma estratégia como essa e existem maneiras de superá-los ou métodos mais sensatos de combinar esse tipo de dados?

Nota: As respostas podem ser mais genéricas que o exemplo espacial que forneci.

time-series climate naught101
fonte

O problema pode estar no seu conflito entre "um único registro de temperatura para toda a região" e qualquer interesse que você tenha pela variação intra-região. Uma solução pode envolver alguma maneira de reconciliar essas duas questões, por exemplo, particionar variação em componentes intra e inter-regionais.

Peter Ellis

@ PeterEllis, sim, eu estava vagamente pensando nisso. Para os propósitos da pergunta, vamos supor que eu não me importo com a variabilidade espacial intra-regional.

precisa saber é o seguinte

Nesse caso, acho que a principal coisa com a qual você deve se preocupar é a dependência entre estações próximas. Encontre uma maneira de ponderar as observações que efetivamente duplicam a estação ao lado e você deve estar bem.

Peter Ellis

@ PeterEllis: ok, mas pode não haver uma maneira física razoável de fazer isso - A proximidade das estações não significa necessariamente que elas são mais dependentes - ou seja. duas estações próximas nos lados opostos de uma cordilheira podem ser menos semelhantes que duas estações distantes em uma ampla planície. Existe uma maneira confiável de definir estatisticamente a dependência? Covariância, suponho ... Ainda é provável que haja menos picos na série resultante (acho que isso reflete a situação física - as mudanças de temperatura em uma região ampla provavelmente serão mais lentas e constantes do que em um único local).

precisa saber é o seguinte

@naught, em relação ao aspecto espacial da sua pergunta, como suas regiões são definidas? No seu comentário, você menciona que duas estações próximas em lados opostos de uma montanha podem ser diferentes de duas estações distantes em uma ampla planície. Você considerou redefinir as regiões da estação com base na proximidade e semelhança para sua análise? Eles não precisariam necessariamente corresponder às fronteiras regionais convencionais. Em vez disso, eles poderiam se tornar uma sobreposição analítica que poderia ser plotada sobre um mapa tradicional.

Dav

Respostas:

Primeiro, gostaria de dizer que adicionaria um comentário, mas ainda não posso fazer isso (rep), mas gosto da pergunta e queria participar, então aqui está uma "resposta". Além disso, vejo que isso é antigo, mas é interessante.

Primeiro, seria possível usar uma técnica de redução de dimensão, como a PCA, para condensar as séries temporais? Se o primeiro valor próprio for grande, talvez isso signifique que o uso do vetor próprio representaria a maior parte da dinâmica.

Segundo, e de maneira mais geral, qual é o uso desejado da série temporal? Sem saber muito mais, acho que as temperaturas podem variar bastante. Por exemplo, se alguns registros de temperatura estiverem próximos das cidades, você poderá obter um efeito do tipo "ilha de calor". Ou talvez uma pequena alteração na distância lateral produza uma grande alteração na distância vertical - um local pode estar no nível do mar e no oceano, e outro não "muito longe", mas a um quilômetro de altitude. Definitivamente teriam temperaturas diferentes!

Estes são apenas alguns pensamentos. Talvez alguém possa entrar e dar uma resposta melhor.

rbatt
fonte

Bom ponto. Para ser sincero, não me lembro qual era o contexto em torno dessa pergunta e sinto que meus comentários foram enganosos. Eu estava especificamente interessado em não perder a variabilidade comum a todas as estações, mas fora de fase. Pense em estações em todo o continente e em uma frente fria que atravessa. Uma média espacial simples pode basicamente remover a frente fria, o que não é realmente uma coisa boa, pois cada estação a exibia fortemente, mas em momentos diferentes. Provavelmente, executar algum tipo de PCA em cada estação e, em seguida, calcular a média dos resultados pode ser uma maneira de contornar isso.

Uau, ok, então, se você está tentando caracterizar a tendência da série temporal na região, talvez você deva estacionar a série temporal e cada uma com uma média de 0. Você também pode tentar remover o ciclo diário de cada um (ou apenas calcule as médias diárias). Em seguida, você ficará com alterações de temperatura de frequência mais baixa, cada uma centrada em torno de uma média de 0. Depois disso, talvez você possa condensar a série temporal estacionária + centralizada usando alguma técnica de redução de dimensão, como o PCA. Estou feliz que você falou um pouco sobre o contexto da questão, porque isso realmente ajuda. Coisa boa!

Rbatt