Eu tenho uma pergunta sobre análise de cluster. Existem 3000 empresas, que precisam ser agrupadas de acordo com o uso de energia ao longo de 5 anos. Cada empresa possui valores para cada hora durante 5 anos. Gostaria de descobrir se algumas empresas têm o mesmo padrão de uso de energia ao longo do período. Os resultados devem ser usados para prever diariamente o uso de energia. Se você tiver algumas idéias de como agrupar séries temporais no SPSS, compartilhe comigo.
time-series
clustering
spss
user89686
fonte
fonte
Respostas:
A) Gaste muito tempo no pré-processamento dos dados. O pré-processamento é 90% do seu trabalho.
B) Escolha uma medida de similaridade apropriada para as séries temporais. Por exemplo, a distância de passagem do limiar pode ser uma boa escolha aqui. Você provavelmente não desejará uma distância dinâmica de distorção de tempo, a menos que tenha fusos horários diferentes. A passagem do limite pode ser mais apropriada para detectar padrões temporais, sem prestar atenção à magnitude real (que provavelmente será muito diferente de empresa para empresa).
C) Agrupe a matriz de dissimilaridade resultante usando métodos como cluster hierárquico ou DBSCAN que podem trabalhar com funções de distância arbitrárias.
fonte
Convém consultar a Previsão de séries horárias com periodicidade diária, semanal e anualpara uma discussão de dados horários envolvendo dados diários e feriados / regressores. Você tem 5 anos de dados enquanto a outra discussão envolveu 883 valores diários. O que eu sugeriria é que você pudesse criar uma previsão horária incorporando regressores, como dia da semana; semana do ano e feriados usando totais diários como um preditor adicional. Dessa forma, você teria 24 modelos para cada uma das 3.000 empresas. Agora, o que você quer fazer é por hora, estimar os 3.000 modelos usando uma estrutura comum do ARIMAX, contabilizando o padrão de resposta em torno de cada um dos regressores, o dia da semana, alterações no dia da semana parâmetros e indicadores semanais ao isolar outliers. Em seguida, você pode estimar os parâmetros globalmente usando todas as 3000 empresas. Realize um teste de comida http://en.wikipedia.org/wiki/Chow_testpara constância de parâmetros e após rejeição agrupam as empresas em grupos homogêneos. Eu me referi a isso como análise de cluster de dimensão única. Como o SPSS possui recursos muito limitados em séries temporais, convém procurar outro software.
fonte