Critérios para selecionar o melhor modelo em um Modelo Markov Oculto

12

Eu tenho um conjunto de dados de séries temporais no qual estou tentando ajustar um Modelo de Markov oculto (HMM) para estimar o número de estados latentes nos dados. Meu pseudo-código para fazer isso é o seguinte:

for( i in 2 : max_number_of_states ){ 
    ...
    calculate HMM with i states
    ...
    optimal_number_of_states = "model with smallest BIC"
    ...
}

Agora, nos modelos de regressão usuais, o BIC tende a favorecer os modelos mais parcimoniosos, mas, no caso do HMM, não tenho certeza de que é isso que está fazendo. Alguém realmente sabe a que tipo de HMM o critério BIC tende? Também posso obter o valor da AIC e da probabilidade também. Como estou tentando inferir o verdadeiro número total de estados, um desses critérios é "melhor" que o outro para esse fim?

whuber
fonte

Respostas:

11

Estou assumindo aqui que sua variável de saída é categórica, embora não seja esse o caso. Normalmente, quando eu vi os HMMs usados, o número de estados é conhecido antecipadamente, e não selecionado através do ajuste. Geralmente eles correspondem a alguma variável bem compreendida que por acaso não é observada. Mas isso não significa que você não pode experimentar.

O perigo de usar BIC (e AIC) é que o valor de k para o número de parâmetros livres no modelo aumenta quadraticamente com o número de estados, porque você tem a matriz de probabilidade de transição com parâmetros Px (P-1) (para estados P ) e as probabilidades de saída para cada categoria da saída em cada estado. Portanto, se o AIC e o BIC estão sendo calculados corretamente, o k deve subir rapidamente.

Se você tiver dados suficientes, eu recomendaria um método mais fácil de ajustar o número de estados, como testar em uma amostra de validação. Você também pode querer apenas olhar para a estatística de probabilidade e ver visualmente em que momento ela planeja. Além disso, se seus dados forem grandes, lembre-se de que isso empurrará o BIC para um modelo menor.

Mike Nute
fonte