Análise exploratória de erros de previsão espaço-temporal

13

Os dados: trabalhei recentemente na análise das propriedades estocásticas de um campo espaço-temporal de erros de previsão de produção de energia eólica. Formalmente, pode-se dizer que é um processo indexado duas vezes no tempo (comteh) e uma vez no espaço (p) comHsendo o número de tempos de espera (igual a algo em torno de24, amostrado regularmente),sendoTo número de "tempos de previsão" (ou seja, horários em que a previsão é emitida, cerca de 30000 no meu caso, amostrada regularmente), ensendo uma série de posições espaciais (sem grade, cerca de 300 no meu caso). Como este é um processo relacionado ao clima, também tenho muitas previsões, análises e medições meteorológicas que podem ser usadas.

(ϵt+h|tp)t=1...,T;h=1,...,H,p=p1,...,pn
thpH24Tn

Pergunta: Você pode me descrever a análise exploratória que você executaria nesse tipo de dados para entender a natureza da estrutura de interdependência (que pode não ser linear) do processo, a fim de propor uma modelagem fina dele.

Robin Girard
fonte
Esta é uma questão muito interessante. É possível jogar pelo menos com um subconjunto de dados anônimos? E como as previsões foram geradas, que tipo de modelo foi usado?
Mpiktas
1
@mpiktas obrigado, você pode considerar que foi gerado com uma modelagem de AR adequada (uma para cada parque eólico), não mudará muito o problema. Desculpe, não há demasiados problemas confidencialidade com esses dados, não pode fornecer-lhe qualquer coisa, mesmo anónimos ...
robin Girard

Respostas:

6

Parece-me que você tem dados suficientes para modelar a dependência do espaço-tempo e influências meteorológicas de ambos, o viés dos erros de previsão (ou seja, tendência a sistematicamente superestimar / subestimar [primeiro momento]) e sua variação [segundo momento].

Para explorar o viés, eu apenas faria muitos gráficos de dispersão, mapas de calor ou gráficos de hexbin. Para explorar a variabilidade, eu apenas compara os erros originais e, em seguida, novamente faço muitos gráficos de dispersão, mapas de calor ou gráficos de hexbin. É claro que isso não é totalmente sem problemas se você tem muitos preconceitos, mas ainda pode ajudar a ver padrões de heterocedasticidade influenciada por covariáveis.

Os meus colegas fizeram um bom relatório técnico que detalha um método muito flexível para ajustar esse tipo de modelo (também permite modelar momentos mais altos, se necessário) que também possui um bom gamboostLSS deR implementação baseado em : Mayr, Andreas; Fenske, Nora; Hofner, Benjamin; Kneib, Thomas e Schmid, Matthias (2010): GAMLSS para dados de alta dimensão - uma abordagem flexível com base no aumento. . Supondo que você tenha acesso a máquinas com muita memória RAM (seus conjuntos de dados parece ser BIG), você pode estimar todos os tipos de efeitos semi-paramétricos (como estimadores superfície lisa para efeitos espaciais ou o efeito conjunto de t e hmboostth, splines de produto tensorial para efeitos tempo-espaciais ou interações suaves de efeitos meteorológicos etc.) para os diferentes momentos e realizam a seleção de termos ao mesmo tempo para obter um modelo parcimonioso e interpretável. A esperança seria que os termos desse modelo sejam suficientes para explicar a estrutura de autocorrelação espaço-temporal dos erros de previsão, mas você provavelmente deve verificar os resíduos desses modelos para autocorrelação (por exemplo, veja alguns variogramas e ACFs).

fabianos
fonte
+1 Obrigado Fabians, Você está totalmente certo, o problema não é que eu não tenho dados suficientes. Note que minha pergunta é especialmente sobre a estrutura de interdependência. Gráficos de dispersão, mapas de calor e plotagem de hexbin são boas ferramentas se forem usados ​​para o bom propósito. Eu acho que o modelo aditivo geral também pode ser muito poderoso; há um artigo maravilhoso da Brillinger que fornece boas dicas sobre como usar o GAM.
robin Girard
5

Nós (um colega e eu) finalmente escrevemos um artigo sobre esse assunto. Para resumir as coisas, propusemos duas soluções para quantificar e fornecer um resumo estatístico da propagação (espaço-temporal) de erros ao longo da Dinamarca e ao longo do tempo.

  • No primeiro , calculamos a correlação entre todos os pares de parques eólicos e para todos os pares de tempos de espera (esta é uma função de 4 variáveis). Quando um par é fixo, mostramos que a função de correlação tem um máximo local ao longo dos tempos de espera, dissemos que isso é propagação! A escala temporal associada a um determinado par de parques eólicos é dada pelo atraso temporal para o qual esse máximo local é obtido. Traçando, para todos os pares de parques eólicos, os máximos locais de correlação, o atraso temporal que permite obter isso e o vetor espacial que une os parques eólicos dá o lado direito da Figura 1.

figura 1

Isso pode ser usado para calcular um vetor de propagação global, ou seja, algum tipo de média espacial das velocidades de propagação entre pares. Parte disso é mostrada no lado esquerdo da Figura 1 e adivinhe qual propagação de erros é o oeste leste em Denamrk (ok, isso não foi uma grande surpresa :)). Também analisamos isso condicionalmente a diferentes situações meteorológicas, a fim de mostrar a relação entre propagação e vento (velocidade, direção).

  • ttR2

Figura 2

No segundo caso, observamos que a velocidade de propagação média temporal possui um magnituto semelhante ao obtido com a média espacial no primeiro caso. Se você quiser examinar esse trabalho com mais seriedade, o artigo está aqui .

Robin Girard
fonte
+1 Obrigado por compartilhar. (Desculpe, eu perdi a pergunta quando ela apareceu originalmente.) Você considerou plotar variogramas cruzados pelo tempo previsto? As mais eficazes não seriam as nuvens de variograma direcionais suavizadas tradicionais; em vez disso, use gráficos bidimensionais das densidades da nuvem do variograma. Você pode então construir cross-variogramas dos explorar as relações temporais. Seus resultados de propagação devem sair dessa análise automaticamente.
whuber
@whuber Obrigado pelo comentário, dificilmente acredito que você tenha perdido mais de 2 ou 3 perguntas neste site :). Sua ideia com o variograma parece conectada (eu não costumo usar variograma, geralmente acredito que tudo o que pode ser formulado com variograma tem um equivalente prático de covariâncias ...), vou pensar nisso.
robin Girard
Você está certo de que em muitas aplicações as covariâncias são equivalentes a variogramas. No entanto, a nuvem de variograma fornece um complemento visual e conceitual que parece não oferecer um trabalho puramente com funções de covariância - é como olhar para gráficos de dispersão em vez de apenas matrizes de correlação: às vezes você pode ver padrões que os números não revelam claramente .
whuber