Determinando o limite ideal de regra de decisão binária a partir de observações com antecedentes desconhecidos?

8

Dadas apenas observações de um sinal binário perturbado pelo ruído gaussiano com informações prévias desconhecidas, como posso estimar o limiar de decisão ideal?

(Não, essa não é uma pergunta de lição de casa)

Especificamente, penso no seguinte modelo: é uma variável aleatória de dois estados ( H 0 , H 1 ) :Y(H0 0,H1 1)

  • P(Y|H0 0)N(μ0 0,σ)
  • P(Y|H1 1)N(μ1 1,σ),μ0 0<μ1 1
  • P(H0 0)=π0 0
  • P(H1 1)=1 1-π0 0

com parâmetros desconhecidos : .μ0 0,μ1 1,σ,π0 0

O limite máximo de probabilidade log a posteriori poderia ser calculado a partir desses parâmetros se eu os conhecesse. Eu estava originalmente pensando em como estimar os parâmetros primeiro para chegar ao limite Yt . Mas eu estou pensando que pode ser mais robusta para estimar diretamente .Yt

Pensamentos: A normalização das observações (subtração da média da amostra e divisão pelo desvio padrão) reduz o espaço do parâmetro em 2 dimensões: e σπ0 0 .σμ1 1-μ0 0

Mark Borgerding
fonte
Esse problema seria muito mais fácil se você pudesse assumir que Pi0 era 0,5. :-)
Jim Clay
Pode essa questão ser algo relacionado a estes: stackoverflow.com/questions/1504378/... ou stackoverflow.com/questions/5451089/...
hotpaw2
Existe uma sequência de observações de treinamento disponível para estimar as médias, variações, etc.? Ou você simplesmente recebe uma sequência de dados na qual alguns valores são de e outros de H 1, mas você não sabe qual é qual? H0 0H1 1
precisa

Respostas:

6

Minha intuição é que seria difícil obter o limite de decisão correto que você espera encontrar:

τ=1 12(μ0 0+μ1 1)-σ2__μ0 0-μ1 1__2registroπ1 1-π(μ0 0-μ1 1)

A partir das estatísticas globais que você está considerando (média da amostra: ; desvio padrão: expressão mais complexa, mas duvido que isso envolva um log).πμ0 0+(1 1-π)μ1 1

Eu abordaria o problema desta maneira:

  1. Se for possível assumir que é pequenoσ

    Estou mencionando isso, porque lembre-se de que o limite de decisão é afetado por somente se σ for suficientemente alto para permitir a sobreposição de ambas as classes. Se os µ s estiverem distantes em mais de alguns σπσμσ , classe probabilidades prévias têm nada a dizer no processo de decisão!

    • Execute k-means em suas observações ( é pequeno e é compartilhado por ambas as classes, portanto, k-means é , neste caso, EM para o modelo de mistura). Se você apenas deseja binarizar essas observações e nenhum outro dado, pode parar por aqui.σ
    • Se você tiver novas observações para binarizar e souber que elas são geradas pelo mesmo processo, poderá usar os centróides de classe encontrados por k-means nos dados de treinamento como estimativas de e usar o meio como limite de decisão.μ
  2. Se nenhuma suposição sobre puder ser feitaσ

    • Execute o algoritmo EM (com covariância diagonal agrupada) nos seus dados de treinamento. Use as variáveis ​​inferidas "associação de classe leve" para binarizar suas observações.
    • Calcule o limite de decisão partir dos parâmetros fornecidos pelo EM para binarizar novos dados gerados pelo mesmo processo.τ
pichenettes
fonte
2

Para resumir, você tem duas distribuições com parâmetros desconhecidos e uma medição que pode ter se originado de qualquer processo estocástico. Isso geralmente é chamado de problema de associação de dados e é muito comum e amplamente estudado na comunidade de rastreamento. Você pode considerar o uso de um algoritmo PDAF (Probability Data Association Filter) ou MHT (Multi-Hypothesis Tracking). Isso deve fornecer estimativas da média e variação para cada distribuição.
Como alternativa, como o ruído é branco e gaussiano, o ML, o MAP e o MMSE são todos equivalentes e podem ser encontrados minimizando o erro quadrático médio (função de custo), como é efetivamente descrito pela resposta anterior. Eu usaria uma abordagem de programação dinâmica para encontrar o mínimo da função de custo. Isso deve ser menos complexo (computacionalmente) do que os métodos EM / cluster descritos anteriormente. Mais um comentário: o PDAF é recursivo. Dado o modelo de sinal simples, ele deve funcionar de maneira muito eficaz e o que eu espero é uma fração da complexidade computacional do algoritmo EM. Boa sorte, -B

Brant Jameson
fonte
1

Existe um algoritmo de Kittler e Illingworth, de meados da década de 1980, chamado "Minimum Error Thresholding" que resolve esse problema nas distribuições gaussianas. Recentemente, Mike Titterington (Universidade de Glasgow) e JH Xue (agora na UCL) colocaram isso em um quadro estatístico mais formal, veja suas publicações conjuntas em periódicos.

útil
fonte