testar se uma cadeia de markov é igual a uma cadeia teórica

8

Eu tenho uma matriz empírica de contagem de transições Q. Eu tenho uma cadeia de Markov teórica de primeira ordem P. Digamos que N é o número de transições. Gostaria de testar se Q é compatível com P. É correto encontrar a matriz de transição de contagem teórica (N * P) calculando as estatísticas do qui-quadrado, e calculando o valor p de uma com graus de liberdade ? χ2K(K-1)i,jK(Qij(NPij))2NPijχ2K(K1)

Giorgio Spedicato
fonte
2
Eu não estou muito familiarizado com os testes do qui-quadrado, mas, deslizando ao redor, parece ser comumente usado para dados multinomiais (por exemplo, aqui ). Eu acho que cada linha de deve corresponder a uma distribuição multinomial? Então você pode usar para a linha , ou seja, o número de transições "de ". Ou seja, " " pode variar dependendo do estado inicial? n i i i NPniiiN
GeoMatt22

Respostas:

5

Supondo que suas matrizes são algo como então você pode interpretar cada linha como uma distribuição multinomial com os parâmetros

Pij=Pr[ji],Qij=t=1N[xt=i&xt+1=j]
i
pi=Pi,:,ni=j=1KQij

Não tenho certeza de que você pode agrupar todas as linhas juntas, porque o "número de tentativas" variará entre as linhas.

Por exemplo, diga e seus dados são . Portanto, existem transições, com vindo de , mas de e somente de . Então, eu acho que sua confiança em geralmente deve ser maior do que sua confiança em .K=3x=[1,1,2,1,2,3,1,2]N=7n1=4x=1n2=2x=2n3=1x=3p^1p^3

(No caso extremo, talvez para este exemplo, seja realmente , mas você não tem dados sobre essas transições, pois Tratar "ausência de evidência como evidência de ausência" me pareceria problemático aqui.)K4n4=0

Eu não estou muito familiarizado com testes qui-quadrado, mas isso sugere que você pode tratar as linhas de forma independente (ou seja, somar apenas sobre e usar vez de ). Esse raciocínio não parece específico para o teste do qui-quadrado, portanto, também deve ser aplicado a qualquer outro teste de significância que você possa usar (por exemplo, multinomial exato ).jniN

A questão principal é que as probabilidades de transição são condicionais , portanto, para cada entrada na matriz, apenas as transições que satisfazem sua pré-condição são relevantes. De fato, presumivelmente, a matriz de transição satisfará ; portanto, a "matriz empírica de transição" deve ser .jPij=1P^ij=Qij/ni


Atualização: em resposta à consulta do OP, um esclarecimento sobre os "parâmetros de teste".

Se houver estados na cadeia de Markov, ou seja, , na linha , a distribuição multinomial correspondente terá o vetor de probabilidade e número de tentativas , fornecidas acima.KPRK×KipiRKniN

Portanto, haverá categorias e o vetor de probabilidade terá graus de liberdade, como . Portanto, para a linha a estatística correspondente seria que será assintoticamente siga um qui-quadrado distribuído com graus de liberdade (como indicado aqui e aqui ). Veja também aqui uma discussão sobre quando o é apropriado e testes alternativos que podem ser mais apropriados.KpiK1j=1K(pi)j=1iχ2

χi2=j(QijniPij)2niPij
K1χ2

Ele pode ser possível fazer um "teste aglomeradas", assumindo segue uma distribuição do Qui-quadrado com DOF de (isto é, soma DOFs sobre linhas). No entanto, não tenho certeza se o pode ser tratado como independente. De qualquer forma, os testes em linhas parecem mais informativos, portanto, podem ser preferíveis a um teste agrupado.χP2=iχi2K(K1)χi2

GeoMatt22
fonte
Idéia inteligente de tratá-lo como uma distribuição multinomial. A soma de duas variáveis ​​qui-quadrado é qui-quadrado, para que as estatísticas de teste para cada linha possam ser separadas por computador e somadas para gerar uma nova estatística de teste qui-quadrado. Isso terá graus de liberdadeNK
Hugh
@ Hugh, eu não estou familiarizado o suficiente para avaliar, mas isso pode muito bem ser razoável. Meu ponto principal era mais que a abordagem "linha por linha" parece justificável e mais informativa do que a abordagem "agrupada". (Eu acho que um ponto secundário é que todo o trabalho no qui-quadrado para multinomiais, por exemplo, convergência assintótica, pode ser um bom ponto de partida. Tudo o que sei sobre esses tópicos que aprendi agora mesmo ao escanear postagens de currículo, é isso. pode oferecer!) Você pode postar uma resposta curta, abordando o aspecto qui-quadrado mais diretamente.
GeoMatt22
@ GeoMatt22 ... Então, está correto o número de graus de liberdade para o teste do Qui-Quadrado ser igual a sendo N o tamanho do dtmc? N2N
Giorgio Spedicato
Giorgio, veja minha atualização.
GeoMatt22
@ Hugh, por favor, veja minha resposta atualizada. Observe que a Wikipedia diz "Note-se que os graus de liberdade não são baseados no número de observações". Não tenho certeza se meus para um "teste concentrado" estão corretos, mas também não sei de onde viriam seus DOK ! Algum esclarecimento? K(K1)NK
GeoMatt22