Modelos de estado oculto vs. modelos sem estado para regressão de séries temporais

Essa é uma pergunta bastante genérica: suponha que eu queira construir um modelo para prever a próxima observação com base nas observações anteriores de ( pode ser um parâmetro para otimizar experimentalmente). Portanto, basicamente temos uma janela deslizante de recursos de entrada para prever a próxima observação. $N$ $N$

Eu posso usar uma abordagem do Modelo Hidden Markov, ou seja, Baum-Welch para estimar um modelo, depois Viterbi para prever um estado atual com base nas últimas observações, prever o próximo estado mais provável com base no estado atual e prever o próximo observação usando o próximo estado mais provável e os parâmetros HMM (ou variantes como encontrar a distribuição preditiva da próxima observação). $N$

Ou posso usar uma abordagem muito mais simples, usando um modelo sem estado (que pode obter como entrada as observações anteriores ), por exemplo, SVM, regressão linear, splines, árvores de regressão, vizinhos mais próximos etc. Esses modelos são baseados em minimizar alguns erros de previsão sobre o conjunto de treinamento e, portanto, conceitualmente, muito mais simples que um modelo baseado em estado oculto. $N$

Alguém pode compartilhar sua experiência em lidar com essa escolha de modelo? O que falaria a favor do HMM e o que favoreceria uma abordagem de regressão? Intuitivamente, deve-se adotar o modelo mais simples possível para evitar o excesso de ajuste; isso fala em favor de uma abordagem sem estado ... Também precisamos considerar que ambas as abordagens obtêm os mesmos dados de entrada para treinamento (acho que isso implica que, se não incorporarmos conhecimento de domínio adicional na modelagem de um modelo de estado oculto, por exemplo, Para corrigir certos estados e probabilidades de transição, não há razão para que um modelo de estado oculto tenha um desempenho melhor). No final, é claro que é possível brincar com as duas abordagens e ver o que funciona melhor em um conjunto de validação, mas algumas heurísticas baseadas na experiência prática também podem ser úteis ...

Nota: para mim, é importante prever apenas determinados eventos; Prefiro um modelo que preveja poucos eventos "interessantes / raros" , em vez de um modelo que preveja eventos "médios / freqüentes", mas os interessantes não tão bem. Talvez isso tenha implicações na escolha da modelagem. Obrigado.

regression time-series modeling prediction hidden-markov-model Mannaggia
fonte

Você pode esclarecer por que acredita que os modelos de regressão são necessariamente apátridas ? Modelos de regressão linear dinâmica (nos quais os valores anteriores da previsão e estão incluídos no lado direito da equação do modelo) parecem muito condicionados ao estado . Mas talvez eu esteja perdendo alguma coisa.

Alexis

obrigado por ler a pergunta. Eu diria que é um pouco uma questão de semântica, também dou um exemplo de modelos de regressão que incluem os valores de observação n-passado no lado direito do modelo; esse modelo é obviamente dinâmico. No entanto, eu estava me referindo mais ao conceito de uma variável oculta / latente para a qual geralmente são usadas técnicas EM para encontrar o modelo versus modelos para os quais não temos esses estados ocultos (ou seja, os estados são observáveis, são as observações). De uma perspectiva prática e pragmática, é possível dizer o que funciona melhor e quando?

Mannaggia

Percebi que você se refere a valores passados da previsão como entradas. Esses modelos são equivalentes a um modelo de estado oculto (em princípio, eles incluem apenas mais do que N observação, substituindo a equação das previsões passadas)? A questão é mais se observarmos o estado e modelá-lo ou se inferirmos o estado com base em uma suposição do modelo. No entanto, estou mais interessado no aspecto prático, não no matemático. Ou seja, é possível dizer em que condições a uma ou a outra abordagem funciona melhor (eu não acho que teorema pode dar uma resposta a esta pergunta)?

Mannaggia

Talvez essa pergunta anterior seja metade da questão apresentada aqui.

Meadowlark Bradsher

Em suma, acho que eles estão trabalhando em diferentes paradigmas de aprendizado.

O modelo de espaço de estado (modelo de estado oculto) e outro modelo apátrida que você mencionou descobrirão o relacionamento subjacente de suas séries temporais em diferentes paradigmas de aprendizado: (1) estimativa de máxima verossimilhança, (2) inferência de Bayes, (3) empírica minimização de riscos.

No modelo de espaço de estado,

$x_t$ $y_t$ $t>0$

Você assume o seguinte relacionamento para o modelo:

$P(x_0)$

$P(x_t | x_{t-1})$ $t \geq 1$

$P(y_t | x_t)$ $t \geq 1$ $x_t$

$y_t$ $x_t$

Quando você usa Baum-Welch para estimar os parâmetros, na verdade, procura uma estimativa de probabilidade máxima do HMM. Se você usa o filtro Kalman, está resolvendo um caso especial do problema do filtro bayesiano (que é de fato uma aplicação do teorema de Bayes na etapa de atualização):

Etapa de previsão:

$\displaystyle P(x_t|y_{1:t-1}) = \int P(x_t|x_{t-1})P(x_{t-1}|y_{1:t-1}) \, dx_{t-1}$

Etapa de atualização:

$\displaystyle P(x_t|y_{1:t}) = \frac{P(y_t|x_t)P(x_t|y_{1:t-1})}{\int P(y_t|x_t)P(x_t|y_{1:t-1}) \, dx_t}$

$P(x_t|x_{t-1})$ $P(y_t|x_t)$ $P(x_t|y_{1:t-1})$ $P(x_t|y_{1:t})$ $x_t$ (média + variância é suficiente para distribuição normal) e o algoritmo funciona como fórmulas matriciais.

$(\{y_0,y_1,...,y_{t-1}\}, y_t)$

$(\mu_j,\sigma_j)$ $j$

$P(A)$ $P(A) \neq 0$ $P(A)=0$ $0$ $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

$n \to \infty$

wonghang
fonte

Modelos de estado oculto vs. modelos sem estado para regressão de séries temporais

Respostas: