Os dados: trabalhei recentemente na análise das propriedades estocásticas de um campo espaço-temporal de erros de previsão de produção de energia eólica. Formalmente, pode-se dizer que é um processo indexado duas vezes no tempo (comteh) e uma vez no espaço (p) comHsendo o número de tempos de espera (igual a algo em torno de24, amostrado regularmente),sendoTo número de "tempos de previsão" (ou seja, horários em que a previsão é emitida, cerca de 30000 no meu caso, amostrada regularmente), ensendo uma série de posições espaciais (sem grade, cerca de 300 no meu caso). Como este é um processo relacionado ao clima, também tenho muitas previsões, análises e medições meteorológicas que podem ser usadas.
Pergunta: Você pode me descrever a análise exploratória que você executaria nesse tipo de dados para entender a natureza da estrutura de interdependência (que pode não ser linear) do processo, a fim de propor uma modelagem fina dele.
fonte
Respostas:
Parece-me que você tem dados suficientes para modelar a dependência do espaço-tempo e influências meteorológicas de ambos, o viés dos erros de previsão (ou seja, tendência a sistematicamente superestimar / subestimar [primeiro momento]) e sua variação [segundo momento].
Para explorar o viés, eu apenas faria muitos gráficos de dispersão, mapas de calor ou gráficos de hexbin. Para explorar a variabilidade, eu apenas compara os erros originais e, em seguida, novamente faço muitos gráficos de dispersão, mapas de calor ou gráficos de hexbin. É claro que isso não é totalmente sem problemas se você tem muitos preconceitos, mas ainda pode ajudar a ver padrões de heterocedasticidade influenciada por covariáveis.
Os meus colegas fizeram um bom relatório técnico que detalha um método muito flexível para ajustar esse tipo de modelo (também permite modelar momentos mais altos, se necessário) que também possui um bom gamboostLSS det h , splines de produto tensorial para efeitos tempo-espaciais ou interações suaves de efeitos meteorológicos etc.) para os diferentes momentos e realizam a seleção de termos ao mesmo tempo para obter um modelo parcimonioso e interpretável. A esperança seria que os termos desse modelo sejam suficientes para explicar a estrutura de autocorrelação espaço-temporal dos erros de previsão, mas você provavelmente deve verificar os resíduos desses modelos para autocorrelação (por exemplo, veja alguns variogramas e ACFs).
R
implementação baseado em : Mayr, Andreas; Fenske, Nora; Hofner, Benjamin; Kneib, Thomas e Schmid, Matthias (2010): GAMLSS para dados de alta dimensão - uma abordagem flexível com base no aumento. . Supondo que você tenha acesso a máquinas com muita memória RAM (seus conjuntos de dados parece ser BIG), você pode estimar todos os tipos de efeitos semi-paramétricos (como estimadores superfície lisa para efeitos espaciais ou o efeito conjunto de t e hmboost
fonte
Nós (um colega e eu) finalmente escrevemos um artigo sobre esse assunto. Para resumir as coisas, propusemos duas soluções para quantificar e fornecer um resumo estatístico da propagação (espaço-temporal) de erros ao longo da Dinamarca e ao longo do tempo.
Isso pode ser usado para calcular um vetor de propagação global, ou seja, algum tipo de média espacial das velocidades de propagação entre pares. Parte disso é mostrada no lado esquerdo da Figura 1 e adivinhe qual propagação de erros é o oeste leste em Denamrk (ok, isso não foi uma grande surpresa :)). Também analisamos isso condicionalmente a diferentes situações meteorológicas, a fim de mostrar a relação entre propagação e vento (velocidade, direção).
No segundo caso, observamos que a velocidade de propagação média temporal possui um magnituto semelhante ao obtido com a média espacial no primeiro caso. Se você quiser examinar esse trabalho com mais seriedade, o artigo está aqui .
fonte