Detecção de ponto de mudança on-line bayesiana (distribuição preditiva marginal)

9

Estou lendo o documento on-line de detecção de ponto de mudança bayesiano de Adams e MacKay ( link ).

Os autores começam escrevendo a distribuição preditiva marginal: em que

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • xt é a observação no tempo ;t
  • x1:t indica o conjunto de observações até o tempo ;t
  • rtN é o comprimento de execução atual (o tempo desde o último ponto de mudança, pode ser 0); e
  • xt(r) é o conjunto de observações associadas à execução .rt

Eq. 1 está formalmente correto (veja a resposta abaixo de @JuhoKokkala), mas meu entendimento é que, se você quiser realmente fazer uma previsão sobre precisará expandi-la da seguinte forma:xt+1

P(xt+1|x1:t)=rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b)

Meu raciocínio é que pode muito bem haver um ponto de mudança no tempo (futuro) , mas o posterior cobre apenas até .t+1P(rt|x1:t)t

O ponto é que os autores do artigo nos fazem da Eq. 1 como está (veja as Eqs. 3 e 11 no documento), e não 1b. Portanto, eles aparentemente ignoram a possibilidade de um ponto de mudança no tempo ao prever partir dos dados disponíveis no tempo . No início da Seção 2, eles dizem en passantt+1xt+1t

Assumimos que podemos calcular a distribuição preditiva [para ] condicional em um determinado comprimento de execução .xt+1rt

que talvez seja onde está o truque. Mas, em geral, essa distribuição preditiva deve se parecer com a Eq. 1b; o que não é o que eles fazem (Eq. 11).

Portanto, não sei se entendi o que está acontecendo. Talvez haja algo engraçado acontecendo com a notação.


Referência

  • Adams, RP e MacKay, DJ (2007). Detecção de ponto de mudança on-line bayesiano. pré-impressão do arXiv arXiv: 0710.3742.
lacerbi
fonte
Uma possível explicação é que representa a duração da execução no final do tempo, etapa , que é após o ponto de mudança no tempo . Com isso, a Eq. 1 faz sentido. De fato, uma inicialização do algoritmo é configurada que assume que há um ponto de mudança logo antes do início em . No entanto, a Figura 1 está errada (ou pelo menos enganosa), pois, se houver um ponto de mudança entre e , e entre e como mostrado na Figura 1a, então ertttP(r0=0)=1t=1t=4t=5t=10t=11r4r10deve ser 0 de acordo com esta notação, e não e conforme Figura 1b. r5r11
lacerbi
11
Há algo estranho acontecendo na Eq. 3 como o fator do meio no summand na última linha é enquanto eu pensava que contém . Eu suspeito que e mudaram de lugar, pois faria sentido. Na Eq. 11, o lado direito parece depender de que não aparece no lado esquerdo, então, ou há algo errado ou eu não entendo a notação. P(xtrt1,xt(r))xt(r)xttt1P(xtrt,xt1(r))xt(r)
Juho Kokkala
@JuhoKokkala: Eu estou feliz que eu não sou o único com esse sentimento ...
lacerbi
11
@acerbbi, tenho outra pergunta sobre este artigo e acho que você pode respondê-la, pois parece familiar com o trabalho: stats.stackexchange.com/questions/419988 .
gwg 31/07/19

Respostas:

5

Ambos (1) e (1b) estão corretos. O OP tem razão em que (neste modelo) pode haver um ponto de mudança em , e depende se existe um ponto de mudança. Isso não implica problemas com (1), pois os possíveis valores de são totalmente "cobertos" por . significa a distribuição condicional de condicional em . Essa distribuição condicional calcula a média de "tudo o resto", incluindo , condicional em . Assim como alguém poderia escrever, digamos,t+1xt+1rt+1P(xt+1rt,x1:t)P(xt+1|rt,x1:t)xt+1(rt,x1:t)rt+1(rt,x1:t)P(xt+1000|xt), que levaria em consideração todas as configurações possíveis dos pontos de mudança, bem como os valores de s ocorrendo entre e .xitt+1000

No restante, derivo primeiro (1) e depois (1b) com base em (1).

Derivação de (1)

Para quaisquer variáveis ​​aleatórias , temos desde que seja discreto (caso contrário, a soma precisa ser substituída por uma integral). Aplicando isso a :A,B,C

P(AB)=cP(AB,C=c)P(C=cB),
Cxt+1,x1:t,rt

P(xt+1x1:t)=rtP(xt+1rt,x1:t)P(rtx1:t),
que mantém, independentemente de quais sejam as dependências entre , , , ou seja, ainda não há suposições de modelo sido usado. No modelo atual, dado é assumido * como sendo condicionalmente independente dos valores de das execuções anteriores a . Isso implica . Substituindo isso na equação anterior, obtemosrtx1:txt+1xt+1rt,xt(r)xxt(r)P(xt+1rt,x1:t)=P(xt+1rt,xt(r))

P(xt+1x1:t)=rtP(xt+1rt,xt(r))P(rtx1:t),(1)
que é (1) no OP.

Derivação de (1b)

Vamos considerar a decomposição de sobre os valores possíveis de : P(xt+1rt,xt(r))rt+1

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,rt,xt(r))P(rt+1rt,xt(r)).

Como se assume * que se um ponto de mudança ocorre em (entre e ) não depende do histórico de , temos . Além disso, como determina se pertence à mesma execução que , temos . Substituindo essas duas simplificações pela fatoração acima, obtemos t+1xtxt+1xP(rt+1rt,xt(r))=P(rt+1rt)rt+1xt+1xtP(xt+1rt+1,rt,xt(r))=P(xt+1rt+1,xt(r))

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,xt(r))P(rt+1rt).
Substituindo isso em (1), obtemos que é OP (1b).
P(xt+1x1:t)=rt(rt+1P(xt+1rt+1,xt(r))P(rt+1rt))P(rtx1:t),(1b)

* Observação sobre as premissas de independência condicional do modelo

Com base na rápida navegação do artigo, eu pessoalmente gostaria que as propriedades de independência condicional fossem mais explicitamente declaradas em algum lugar, mas suponho que a intenção é que seja Markoviano e os : s associados a diferentes execuções sejam independentes (dadas as execuções).xrx

Juho Kokkala
fonte
11
(+1) Obrigado. Sim, claro, eu entendo que a Eq. 1 está formalmente correto se alguém assume marginalização implícita sobre . O problema é que, mais tarde, os autores fazem previsões (Eq. 11 no artigo e implicitamente na Eq. 3) e, aparentemente, não estão marginalizando quando as fazem. r t + 1rt+1rt+1
lacerbi
11
Oh. Parece então que eu entendi mal a pergunta - devo excluir isso? Você pode querer esclarecer a questão, atualmente parece que (1) é de alguma forma incorreta (em vez de talvez não é útil)
Juho Kokkala
Por favor, mantenha esta resposta, que é valiosa. Meu erro de não ter ficado claro o suficiente no meu post original. Tentei esclarecer minha pergunta graças aos seus comentários e de uma maneira que ainda torna essa resposta significativa.
lacerbi