Determinando o limite ideal de regra de decisão binária a partir de observações com antecedentes desconhecidos?

8

Dadas apenas observações de um sinal binário perturbado pelo ruído gaussiano com informações prévias desconhecidas, como posso estimar o limiar de decisão ideal?

(Não, essa não é uma pergunta de lição de casa)

Especificamente, penso no seguinte modelo: é uma variável aleatória de dois estados : $Y$ $(H_0,H_1)$

$P(Y|H_0) \sim \mathcal N(\mu_0,\sigma)$
$P(Y|H_1) \sim \mathcal N(\mu_1,\sigma),\quad \mu_0 < \mu_1$
$P(H_0) = \pi_0$
$P(H_1) = 1-\pi_0$

com parâmetros desconhecidos : . $\mu_0, \mu_1, \sigma, \pi_0$

O limite máximo de probabilidade log a posteriori poderia ser calculado a partir desses parâmetros se eu os conhecesse. Eu estava originalmente pensando em como estimar os parâmetros primeiro para chegar ao limite $Y_t$ . Mas eu estou pensando que pode ser mais robusta para estimar diretamente . $Y_t$

Pensamentos: A normalização das observações (subtração da média da amostra e divisão pelo desvio padrão) reduz o espaço do parâmetro em 2 dimensões: e $\pi_0$ . $\frac \sigma{\mu_1-\mu_0}$

signal-detection estimation thresholding maximum-a-posteriori-estimation Mark Borgerding
fonte

Esse problema seria muito mais fácil se você pudesse assumir que Pi0 era 0,5. :-)

Jim Clay

Pode essa questão ser algo relacionado a estes: stackoverflow.com/questions/1504378/... ou stackoverflow.com/questions/5451089/...

hotpaw2

Existe uma sequência de observações de treinamento disponível para estimar as médias, variações, etc.? Ou você simplesmente recebe uma sequência de dados na qual alguns valores são de

e outros de

mas você não sabe qual é qual?

H_{0}

$H_0$

H_{1}

$H_1$

precisa

6

Minha intuição é que seria difícil obter o limite de decisão correto que você espera encontrar:

τ = \frac{1 1}{2} (μ_{0 0} + μ_{1 1}) - \frac{σ^{2}}{__μ_{0 0} - μ_{1 1} {__}^{2}} registro \frac{π}{1 1 - π} (μ_{0 0} - μ_{1 1})

$\tau = \frac{1}{2}\left(\mu_0 + \mu_1\right) - \frac{\sigma^2}{\lVert\mu_0 - \mu_1\rVert^2} \log \frac{\pi}{1 - \pi}\left(\mu_0 - \mu_1\right)$

A partir das estatísticas globais que você está considerando (média da amostra: ; desvio padrão: expressão mais complexa, mas duvido que isso envolva um log). $\pi \mu_0 + (1 - \pi) \mu_1$

Eu abordaria o problema desta maneira:

Se for possível assumir que é pequeno $\sigma$

Estou mencionando isso, porque lembre-se de que o limite de decisão é afetado por somente se for suficientemente alto para permitir a sobreposição de ambas as classes. Se os s estiverem distantes em mais de alguns $\pi$ $\sigma$ $\mu$ $\sigma$ , classe probabilidades prévias têm nada a dizer no processo de decisão!
- Execute k-means em suas observações ( é pequeno e é compartilhado por ambas as classes, portanto, k-means é , neste caso, EM para o modelo de mistura). Se você apenas deseja binarizar essas observações e nenhum outro dado, pode parar por aqui. $\sigma$
- Se você tiver novas observações para binarizar e souber que elas são geradas pelo mesmo processo, poderá usar os centróides de classe encontrados por k-means nos dados de treinamento como estimativas de e usar o meio como limite de decisão. $\mu$
Se nenhuma suposição sobre puder ser feita $\sigma$
- Execute o algoritmo EM (com covariância diagonal agrupada) nos seus dados de treinamento. Use as variáveis inferidas "associação de classe leve" para binarizar suas observações.
- Calcule o limite de decisão partir dos parâmetros fornecidos pelo EM para binarizar novos dados gerados pelo mesmo processo. $\tau$

pichenettes
fonte

2

Para resumir, você tem duas distribuições com parâmetros desconhecidos e uma medição que pode ter se originado de qualquer processo estocástico. Isso geralmente é chamado de problema de associação de dados e é muito comum e amplamente estudado na comunidade de rastreamento. Você pode considerar o uso de um algoritmo PDAF (Probability Data Association Filter) ou MHT (Multi-Hypothesis Tracking). Isso deve fornecer estimativas da média e variação para cada distribuição.
Como alternativa, como o ruído é branco e gaussiano, o ML, o MAP e o MMSE são todos equivalentes e podem ser encontrados minimizando o erro quadrático médio (função de custo), como é efetivamente descrito pela resposta anterior. Eu usaria uma abordagem de programação dinâmica para encontrar o mínimo da função de custo. Isso deve ser menos complexo (computacionalmente) do que os métodos EM / cluster descritos anteriormente. Mais um comentário: o PDAF é recursivo. Dado o modelo de sinal simples, ele deve funcionar de maneira muito eficaz e o que eu espero é uma fração da complexidade computacional do algoritmo EM. Boa sorte, -B

Brant Jameson
fonte

1

Existe um algoritmo de Kittler e Illingworth, de meados da década de 1980, chamado "Minimum Error Thresholding" que resolve esse problema nas distribuições gaussianas. Recentemente, Mike Titterington (Universidade de Glasgow) e JH Xue (agora na UCL) colocaram isso em um quadro estatístico mais formal, veja suas publicações conjuntas em periódicos.

útil
fonte

Determinando o limite ideal de regra de decisão binária a partir de observações com antecedentes desconhecidos?

Respostas: