Estou lendo o documento on-line de detecção de ponto de mudança bayesiano de Adams e MacKay ( link ).
Os autores começam escrevendo a distribuição preditiva marginal: em que
- é a observação no tempo ;
- indica o conjunto de observações até o tempo ;
- é o comprimento de execução atual (o tempo desde o último ponto de mudança, pode ser 0); e
- é o conjunto de observações associadas à execução .
Eq. 1 está formalmente correto (veja a resposta abaixo de @JuhoKokkala), mas meu entendimento é que, se você quiser realmente fazer uma previsão sobre precisará expandi-la da seguinte forma:
Meu raciocínio é que pode muito bem haver um ponto de mudança no tempo (futuro) , mas o posterior cobre apenas até .
O ponto é que os autores do artigo nos fazem da Eq. 1 como está (veja as Eqs. 3 e 11 no documento), e não 1b. Portanto, eles aparentemente ignoram a possibilidade de um ponto de mudança no tempo ao prever partir dos dados disponíveis no tempo . No início da Seção 2, eles dizem en passant
Assumimos que podemos calcular a distribuição preditiva [para ] condicional em um determinado comprimento de execução .
que talvez seja onde está o truque. Mas, em geral, essa distribuição preditiva deve se parecer com a Eq. 1b; o que não é o que eles fazem (Eq. 11).
Portanto, não sei se entendi o que está acontecendo. Talvez haja algo engraçado acontecendo com a notação.
Referência
- Adams, RP e MacKay, DJ (2007). Detecção de ponto de mudança on-line bayesiano. pré-impressão do arXiv arXiv: 0710.3742.
fonte
Respostas:
Ambos (1) e (1b) estão corretos. O OP tem razão em que (neste modelo) pode haver um ponto de mudança em , e depende se existe um ponto de mudança. Isso não implica problemas com (1), pois os possíveis valores de são totalmente "cobertos" por . significa a distribuição condicional de condicional em . Essa distribuição condicional calcula a média de "tudo o resto", incluindo , condicional em . Assim como alguém poderia escrever, digamos,t+1 xt+1 rt+1 P(xt+1∣rt,x1:t) P(xt+1|rt,x1:t) xt+1 (rt,x1:t) rt+1 (rt,x1:t) P(xt+1000|xt) , que levaria em consideração todas as configurações possíveis dos pontos de mudança, bem como os valores de s ocorrendo entre e .xi t t+1000
No restante, derivo primeiro (1) e depois (1b) com base em (1).
Derivação de (1)
Para quaisquer variáveis aleatórias , temos desde que seja discreto (caso contrário, a soma precisa ser substituída por uma integral). Aplicando isso a :A,B,C
Derivação de (1b)
Vamos considerar a decomposição de sobre os valores possíveis de :P(xt+1∣rt,x(r)t) rt+1
Como se assume * que se um ponto de mudança ocorre em (entre e ) não depende do histórico de , temos . Além disso, como determina se pertence à mesma execução que , temos . Substituindo essas duas simplificações pela fatoração acima, obtemost+1 xt xt+1 x P(rt+1∣rt,x(r)t)=P(rt+1∣rt) rt+1 xt+1 xt P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t)
* Observação sobre as premissas de independência condicional do modelo
Com base na rápida navegação do artigo, eu pessoalmente gostaria que as propriedades de independência condicional fossem mais explicitamente declaradas em algum lugar, mas suponho que a intenção é que seja Markoviano e os : s associados a diferentes execuções sejam independentes (dadas as execuções).xr x
fonte