Costumo criar um modelo (classificação ou regressão) em que tenho algumas variáveis preditoras que são sequências e tenho tentado encontrar recomendações técnicas para resumi-las da melhor maneira possível para inclusão como preditores no modelo.
Como exemplo concreto, digamos que um modelo esteja sendo construído para prever se um cliente deixará a empresa nos próximos 90 dias (a qualquer momento entre t e t + 90; portanto, um resultado binário). Um dos preditores disponíveis é o nível do saldo financeiro dos clientes nos períodos t_0 a t-1. Talvez isso represente observações mensais para os 12 meses anteriores (ou seja, 12 medições).
Estou procurando maneiras de construir recursos desta série. Eu uso descritivos de cada série de clientes, como média, alta, baixa e desvio padrão, ajustam uma regressão OLS para obter a tendência. Existem outros métodos para calcular recursos? Outras medidas de mudança ou volatilidade?
ADICIONAR:
Como mencionado na resposta abaixo, eu também considerei (mas esqueci de adicionar aqui) usar o Dynamic Time Warping (DTW) e, em seguida, o cluster hierárquico na matriz de distância resultante - criando algum número de clusters e depois usando a associação do cluster como um recurso. A pontuação dos dados de teste provavelmente teria que seguir um processo em que a DTW fosse realizada em novos casos e nos centróides de cluster - combinando a nova série de dados com os centróides mais próximos ...
A extração de recursos é sempre um desafio e o tópico menos abordado na literatura, pois é amplamente dependente de aplicativos.
Algumas idéias que você pode tentar:
fonte
À primeira vista, você precisa extrair recursos de suas séries temporais (x - 12) - x. Uma abordagem possível é calcular métricas de resumo: média, dispersão etc. Mas, ao fazê-lo, você perderá todas as informações relacionadas às séries temporais. Mas os dados extraídos da forma da curva podem ser bastante úteis. Eu recomendo que você examine este artigo, onde os autores propõem algoritmos para agrupamento de séries temporais. Espero que seja util. Além desse cluster, você pode adicionar estatísticas resumidas à sua lista de recursos.
fonte