Eu tenho uma matriz empírica de contagem de transições Q. Eu tenho uma cadeia de Markov teórica de primeira ordem P. Digamos que N é o número de transições. Gostaria de testar se Q é compatível com P. É correto encontrar a matriz de transição de contagem teórica (N * P) calculando as estatísticas do qui-quadrado, e calculando o valor p de uma com graus de liberdade ? χ2K∗(K-1)
hypothesis-testing
chi-squared
markov-process
Giorgio Spedicato
fonte
fonte
Respostas:
Supondo que suas matrizes são algo como então você pode interpretar cada linha como uma distribuição multinomial com os parâmetros
Não tenho certeza de que você pode agrupar todas as linhas juntas, porque o "número de tentativas" variará entre as linhas.
Por exemplo, diga e seus dados são . Portanto, existem transições, com vindo de , mas de e somente de . Então, eu acho que sua confiança em geralmente deve ser maior do que sua confiança em .K=3 x=[1,1,2,1,2,3,1,2] N=7 n1=4 x=1 n2=2 x=2 n3=1 x=3 p^1 p^3
(No caso extremo, talvez para este exemplo, seja realmente , mas você não tem dados sobre essas transições, pois Tratar "ausência de evidência como evidência de ausência" me pareceria problemático aqui.)K 4 n4=0
Eu não estou muito familiarizado com testes qui-quadrado, mas isso sugere que você pode tratar as linhas de forma independente (ou seja, somar apenas sobre e usar vez de ). Esse raciocínio não parece específico para o teste do qui-quadrado, portanto, também deve ser aplicado a qualquer outro teste de significância que você possa usar (por exemplo, multinomial exato ).j ni N
A questão principal é que as probabilidades de transição são condicionais , portanto, para cada entrada na matriz, apenas as transições que satisfazem sua pré-condição são relevantes. De fato, presumivelmente, a matriz de transição satisfará ; portanto, a "matriz empírica de transição" deve ser .∑jPij=1 P^ij=Qij/ni
Atualização: em resposta à consulta do OP, um esclarecimento sobre os "parâmetros de teste".
Se houver estados na cadeia de Markov, ou seja, , na linha , a distribuição multinomial correspondente terá o vetor de probabilidade e número de tentativas , fornecidas acima.K P∈RK×K i pi∈RK ni∈N
Portanto, haverá categorias e o vetor de probabilidade terá graus de liberdade, como . Portanto, para a linha a estatística correspondente seria que será assintoticamente siga um qui-quadrado distribuído com graus de liberdade (como indicado aqui e aqui ). Veja também aqui uma discussão sobre quando o é apropriado e testes alternativos que podem ser mais apropriados.K pi K−1 ∑Kj=1(pi)j=1 i χ2
Ele pode ser possível fazer um "teste aglomeradas", assumindo segue uma distribuição do Qui-quadrado com DOF de (isto é, soma DOFs sobre linhas). No entanto, não tenho certeza se o pode ser tratado como independente. De qualquer forma, os testes em linhas parecem mais informativos, portanto, podem ser preferíveis a um teste agrupado.χ2P=∑iχ2i K(K−1) χ2i
fonte