Por que a probabilidade no filtro Kalman é calculada usando resultados de filtro em vez de resultados mais suaves?

11

Estou usando o filtro Kalman de uma maneira muito padrão. O sistema é representado pela equação de estado e a equação de observação . $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Os livros didáticos ensinam que, depois de aplicar o filtro Kalman e obter as "previsões um passo à frente" (ou "estimativa filtrada"), devemos usá-los para calcular a função de probabilidade: $\hat{x}_{t|t-1}$

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

Minha pergunta é: Por que a função de probabilidade é calculada usando a "estimativa filtrada" $\hat{x}_{t|t-1}$ e não a "estimativa suavizada" $\hat{x}_{t|T}$ ? Não é $\hat{x}_{t|T}$ uma melhor estimativa do vetor de estado?

likelihood kalman-filter Gustavo Amarante
fonte

Editei o título para ser mais informativo.

Juho Kokkala

5

Para responder à sua pergunta: você pode usar a densidade de suavização. Mas você não precisa. A resposta de Jarle Tufto tem a decomposição que você está usando. Mas existem outros.

Usando as recursões de Kalman

Aqui você está avaliando a probabilidade de

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

Entretanto, meios e variações nem sempre definem completamente as distribuições de probabilidade em geral. A seguir, é apresentada a decomposição que você está usando para passar de filtrar as distribuições até as probabilidades condicionais : $f(x_{i-1}|y_1,\ldots,y_{i-1})$ $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & f (y_{i} | y_{1}, \dots, y_{i - 1}) = \iint f (y_{i} | x_{i}) f (x_{i} | x_{i - 1}) f (x_{i - 1} | y_{1}, \dots, y_{i - 1}) d x_{i} d x_{i - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

Aqui é a densidade de transição de estado ... parte do modelo é a densidade de observação ... parte do modelo novamente. Na sua pergunta, você as escreve como e respectivamente. É a mesma coisa. $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Quando você obtém a distribuição de previsão de estado um passo à frente, está computando . Quando você se integra novamente, você obtém (1) completamente. Você escreve essa densidade completamente na sua pergunta, e é a mesma coisa. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

Aqui você está usando apenas decomposições de distribuições de probabilidade e suposições sobre o modelo. Esse cálculo de probabilidade é um cálculo exato. Não há nada discricionário que você possa usar para fazer isso melhor ou pior.

Usando o algoritmo EM

Que eu saiba, não há outra maneira de avaliar a probabilidade diretamente nesse tipo de modelo de espaço de estado. No entanto, você ainda pode fazer uma estimativa de probabilidade máxima avaliando uma função diferente: você pode usar o algoritmo EM. Na etapa Expectativa (E-Step), você computaria Aqui

\int f (x_{1}, \dots, x_{n} | y_{1}, \dots y_{n}) \log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n}) d x_{1 : n} = E_{s m o o t h} [\log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ é a probabilidade de "dados completos" e você está considerando a expectativa do log em relação à densidade de suavização da junta. O que geralmente acontece é que, porque você está assumindo o log dessa probabilidade de dados completa, os termos são divididos em somas e, devido à linearidade do operador de expectativa, você está assumindo expectativas em relação às distribuições de suavização marginal (aquelas você menciona na sua pergunta).

Outras coisas

Li em alguns lugares que o EM é uma maneira "mais estável" de maximizar a probabilidade, mas nunca vi esse ponto argumentar bem, nem vi a palavra "estável" definida, mas também não realmente não examinou isso mais. Nenhum desses algoritmos contorna a provação máxima local / global. Pessoalmente, costumo usar o Kalman com mais frequência apenas por hábito.

É verdade que as estimativas suavizadas do estado têm uma variação menor normalmente do que a filtragem, então acho que você está certo em ter alguma intuição sobre isso, mas não está realmente usando os estados. A probabilidade que você está tentando maximizar não é uma função dos estados.

Taylor
fonte

Qual a diferença entre KF e EM? Eles acabam fazendo a mesma coisa de maneiras vagamente semelhantes.

Mitch

1

@Mitch provavelmente é algo que merece mais do que um comentário. Depende do otimizador de uso geral que você usa com o KF e do tipo de EM que você usa. Não vou ter muita certeza sem investigar.

Taylor em

7

Em geral, pela regra do produto, a probabilidade exata pode ser escrita Partindo do pressuposto do modelo de espaço de estados, segue-se que o vetor de expectativa e a matriz de variação de cada condicional em observações passadas podem ser expressos como e

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

\begin{aligned} E (y_{i} | y_{1}, \dots, y_{i - 1}) & = E (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H E (x_{t} | y_{1}, \dots, y_{i - 1}) + A z_{t} + E w_{t} \\ = H {\hat{x}}_{t | t - 1} + A z_{t}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$

\begin{aligned} V a r (y_{i} | y_{1}, \dots, y_{i - 1}) & = V a r (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H V a r (x_{t} | y_{1}, \dots, y_{i - 1}) H^{'} + V a r w_{t} \\ = H P_{t | t - 1} H^{'} + R . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$ Portanto, isso oferece a probabilidade exata sem calcular estimativas suaves.

Embora você possa, com certeza, usar as estimativas suavizadas, que na verdade são melhores estimativas dos estados desconhecidos, isso não daria a função de probabilidade. De fato, você usaria o valor observado de para estimar seu próprio valor esperado, portanto parece provável que isso levaria a algum viés nas estimativas resultantes. $y_i$

Jarle Tufto
fonte

0

Penso que uma resposta melhor para "por que" a distribuição de suavização não é usada (normalmente) é eficiência. É, em princípio, simples calcular a probabilidade marginal (suavizada) no sentido de deixar de fora, da seguinte maneira. Excluir observação j, execute o Kalman mais suavemente nos dados restantes. Em seguida, avalie a probabilidade do y invisível (j). Repita isso para todos j. Resuma as probabilidades de log. Versões mais rápidas disso funcionam com blocos (randomizados) de amostras retidas (como CV k-fold). Observe que esse esquema requer uma implementação mais geral do filtro / suave Kalman, que pode ignorar arbitrariamente as atualizações de medição, quando necessário. O passe para trás / suavização não acessa as medições (algoritmo RTS de qualquer maneira) e permanece o mesmo.

Se a série temporal for "longa o suficiente", provavelmente haverá pouco benefício útil em fazer isso, pois a probabilidade de filtragem "queima" seu transiente inicial. Mas se o conjunto de dados for curto, a probabilidade de suavização mais cara pode valer a pena. Um atraso fixo mais suave pode ser uma solução intermediária.

threepwood
fonte

Por que a probabilidade no filtro Kalman é calculada usando resultados de filtro em vez de resultados mais suaves?

Respostas:

Usando as recursões de Kalman

Usando o algoritmo EM

Outras coisas