Suspeito que uma série de sequências observadas sejam uma cadeia de Markov ...
X=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AAD⋮BCA⋮E⎞⎠⎟⎟⎟⎟
No entanto, como eu poderia verificar se eles realmente respeitam a propriedade sem memória de
P(Xi=xi|Xj=xj)?
Ou pelo menos provar que eles são Markov na natureza? Note que estas são sequências empiricamente observadas. Alguma ideia?
EDITAR
Apenas para acrescentar, o objetivo é comparar um conjunto de seqüências previsto dos observados. Gostaríamos de receber comentários sobre a melhor forma de compará-los.
Matriz de transição de primeira ordemMij=xij∑mxik
que m = A..E indica
M=⎛⎝⎜⎜⎜⎜⎜⎜0.18340.46970.18270.23780.24580.30770.11360.24040.18180.17880.07690.00760.22120.06290.11730.14790.25000.19230.33570.17880.28400.15910.16350.18180.2793⎞⎠⎟⎟⎟⎟⎟⎟
Valores próprios de M
E= ⎛⎝⎜⎜⎜⎜⎜⎜1.00000 00 00 00 00 0- 0,222830 00 00 00 00 00,13440 00 00 00 00 00,1136 - 0,0430 i0 00 00 00 00 00,1136 + 0,0430 i⎞⎠⎟⎟⎟⎟⎟⎟
Autovetores de M
V= ⎛⎝⎜⎜⎜⎜⎜⎜0,44720,44720,44720,44720,4472- 0,58520,7838- 0,2006- 0,00100,0540- 0,4219- 0,42110,37250,70890,0589−0.2343−0.0421i−0.4479−0.2723i0.63230.2123−0.0908i0.2546+0.3881i−0.2343+0.0421i−0.4479+0.2723i0.63230.2123+0.0908i0.2546−0.3881i⎞⎠⎟⎟⎟⎟⎟⎟
Respostas:
Gostaria de saber se o seguinte daria um teste de Pearson válido para proporções da seguinte maneira.χ2
É tentador para mim pensar que cada , de modo que o total T ~ χ 2 12 . No entanto, não tenho muita certeza disso e agradeceria sua opinião sobre isso. Eu não sou também não co sertain sobre se é preciso ser paranóico sobre a independência, e gostaria de dividir a amostra em metades para estimar p e ˉ p .TU∼χ23 T∼χ212 p^ p¯
fonte
A propriedade Markov pode ser difícil de testar diretamente. Mas pode ser suficiente ajustar um modelo que assume a propriedade Markov e depois testar se o modelo é válido. Pode acontecer que o modelo ajustado seja uma boa aproximação útil para você na prática, e você não precisa se preocupar se a propriedade Markov realmente é válida ou não.
O paralelo pode ser desenhado para a regressão linear. A prática usual não é testar se a linearidade é válida, mas se o modelo linear é uma aproximação útil.
fonte
Para concretizar a sugestão da resposta anterior, primeiro você deseja estimar as probabilidades de Markov - assumindo que seja Markov. Veja a resposta aqui: Estimando as probabilidades da cadeia de Markov
Você deve obter uma matriz 4 x 4 com base na proporção de transições de estado A para A, de A para B, etc. Chame esta matriz . H 2 deve ser, em seguida, a matriz de transição de dois passos: A para A em 2 passos, e assim por diante. Você pode então testar se a sua matriz de transição de 2 etapas observada é semelhante ao M 2 .M M2 M2
Como você possui muitos dados para o número de estados, pode estimar partir da metade dos dados e testar M 2 usando a outra metade - você está testando frequências observadas em relação às probabilidades teóricas de um multinomial. Isso deve lhe dar uma idéia de quão longe você está.M M2
Outra possibilidade seria ver se as proporções do estado básico: tempo de proporção gasto em A, tempo gasto em B, corresponde ao vetor próprio da unidade de valor próprio de M. Se sua série atingiu algum tipo de estado estacionário, a proporção de tempo em cada Estado deve tender a esse limite.
fonte
Além da propriedade Markov (MP), uma propriedade adicional é a homogeneidade do tempo (TH): pode ser Markov, mas com sua matriz de transição P ( t ), dependendo do tempo t . Por exemplo, pode depender do dia da semana em t se as observações forem diárias e, em seguida, uma dependência X t em X t - 7 condicionada a X t - 1 pode ser diagnosticada se TH for indevidamente assumido.Xt P(t) t t Xt Xt−7 Xt−1
Supondo que TH seja válido, uma possível verificação para MP está testando que é independente de X t - 2 condicional em X t - 1 , como sugeriram Michael Chernick e StasK. Isso pode ser feito usando um teste para tabela de contingência. Podemos construir as n tabelas de contingência de X t e X t - 2 condicionais em { X t - 1 = x j } para os n valores possíveis x jXt Xt−2 Xt−1 n Xt Xt−2 {Xt−1=xj} n xj e teste a independência. Isso também pode ser feito usando
com ℓ > 1 no lugar de X t - 2 .Xt−ℓ ℓ>1 Xt−2
Em R, tabelas de contingência ou matrizes são facilmente produzido graças ao factor de instalação e as funçõesp(Xt|Xt−1=xj,Xt−2=xi) i j como o índice da coluna em treliça no MP deve levar a distribuições semelhantes dentro de uma coluna.
apply
,sweep
. A idéia acima também pode ser explorada graficamente. Os pacotes ggplot2 ou lattice fornecem facilmente gráficos condicionais para comparar distribuições condicionais . Por exemplo, definindo i como índice de linha ejO cap. 5 do livro A análise estatística de processos estocásticos no tempo de JK Lindsey contém outras idéias para verificar suposições.
]
fonte
Penso que placida e mpiktas deram abordagens muito atenciosas e excelentes.
Então a estatística do teste seria a diferença entre essas proporções estimadas. A complicação para a comparação padrão das seqüências de Bernoulli é que elas estão correlacionadas. Mas você pode fazer um teste de autoinicialização de proporções binomiais neste caso.
fonte
You could bin the data into evenly spaced intervals, then compute the unbiased sample variances of subsets{Xn+1:Xn=x1,Xn−k=x2} . By the law of total variance,
The LHS, if it is almost zero, provides evidence that the transition probabilities do not depend onXn−k , though it is clearly a weaker statement: e.g., let Xn+1∼N(Xn,Xn−1) . Taking the expected value of both sides of the above equation, the RHS can be computed from the sample variances (i.e., replacing expected values with averages). If the expected value of the variance is zero then the variance is 0 almost always.
fonte