Essa é uma pergunta bastante genérica: suponha que eu queira construir um modelo para prever a próxima observação com base nas observações anteriores de ( N pode ser um parâmetro para otimizar experimentalmente). Portanto, basicamente temos uma janela deslizante de recursos de entrada para prever a próxima observação.
Eu posso usar uma abordagem do Modelo Hidden Markov, ou seja, Baum-Welch para estimar um modelo, depois Viterbi para prever um estado atual com base nas últimas observações, prever o próximo estado mais provável com base no estado atual e prever o próximo observação usando o próximo estado mais provável e os parâmetros HMM (ou variantes como encontrar a distribuição preditiva da próxima observação).
Ou posso usar uma abordagem muito mais simples, usando um modelo sem estado (que pode obter como entrada as observações anteriores ), por exemplo, SVM, regressão linear, splines, árvores de regressão, vizinhos mais próximos etc. Esses modelos são baseados em minimizar alguns erros de previsão sobre o conjunto de treinamento e, portanto, conceitualmente, muito mais simples que um modelo baseado em estado oculto.
Alguém pode compartilhar sua experiência em lidar com essa escolha de modelo? O que falaria a favor do HMM e o que favoreceria uma abordagem de regressão? Intuitivamente, deve-se adotar o modelo mais simples possível para evitar o excesso de ajuste; isso fala em favor de uma abordagem sem estado ... Também precisamos considerar que ambas as abordagens obtêm os mesmos dados de entrada para treinamento (acho que isso implica que, se não incorporarmos conhecimento de domínio adicional na modelagem de um modelo de estado oculto, por exemplo, Para corrigir certos estados e probabilidades de transição, não há razão para que um modelo de estado oculto tenha um desempenho melhor). No final, é claro que é possível brincar com as duas abordagens e ver o que funciona melhor em um conjunto de validação, mas algumas heurísticas baseadas na experiência prática também podem ser úteis ...
Nota: para mim, é importante prever apenas determinados eventos; Prefiro um modelo que preveja poucos eventos "interessantes / raros" , em vez de um modelo que preveja eventos "médios / freqüentes", mas os interessantes não tão bem. Talvez isso tenha implicações na escolha da modelagem. Obrigado.
Respostas:
Em suma, acho que eles estão trabalhando em diferentes paradigmas de aprendizado.
O modelo de espaço de estado (modelo de estado oculto) e outro modelo apátrida que você mencionou descobrirão o relacionamento subjacente de suas séries temporais em diferentes paradigmas de aprendizado: (1) estimativa de máxima verossimilhança, (2) inferência de Bayes, (3) empírica minimização de riscos.
No modelo de espaço de estado,
Você assume o seguinte relacionamento para o modelo:
Quando você usa Baum-Welch para estimar os parâmetros, na verdade, procura uma estimativa de probabilidade máxima do HMM. Se você usa o filtro Kalman, está resolvendo um caso especial do problema do filtro bayesiano (que é de fato uma aplicação do teorema de Bayes na etapa de atualização):
Etapa de previsão:
Etapa de atualização:
fonte