Calculando o erro do classificador Bayes analiticamente

9

Se duas classes e têm distribuição normal com parâmetros conhecidos ( , como os seus meios e , são as suas covariâncias) como podemos calcular erro do classificador Bayes para eles teoricamente?w1w2M1M2Σ1Σ2

Suponha também que as variáveis ​​estejam no espaço N-dimensional.

Nota: Uma cópia desta pergunta também está disponível em https://math.stackexchange.com/q/11891/4051 que ainda não foi respondida. Se alguma dessas perguntas for respondida, a outra será excluída.

Isaac
fonte
1
Esta pergunta é a mesma que stats.stackexchange.com/q/4942/919 ?
whuber
@whuber Sua resposta sugere que é realmente esse o caso.
chl
@whuber: Sim. Não conheço essa pergunta adequada a qual. Estou aguardando uma resposta para que um remova o outro. É contra as regras?
Isaac
Pode ser mais fácil, e certamente seria mais limpo, editar a pergunta original. No entanto, algumas vezes uma pergunta é reiniciada como nova quando a versão anterior coleta muitos comentários que são irrelevantes pelas edições, portanto, é uma decisão judicial. De qualquer forma, é útil colocar referências cruzadas entre perguntas estreitamente relacionadas para ajudar as pessoas a conectá-las facilmente.
whuber

Respostas:

25

Não há formulário fechado, mas você pode fazê-lo numericamente.

Como um exemplo concreto, considere dois gaussianos com os seguintes parâmetros

μ1=(11),μ2=(11)

Σ1=(21/21/22), Σ2=(1001)

O limite ideal do classificador de Bayes corresponderá ao ponto em que duas densidades são iguais

Como seu classificador selecionará a classe mais provável em todos os pontos, você precisará integrar a densidade que não é a mais alta para cada ponto. Para o problema acima, corresponde aos volumes das seguintes regiões

Você pode integrar duas partes separadamente usando algum pacote de integração numérica. Para o problema acima, eu 0.253579uso o seguinte código do Mathematica

dens1[x_, y_] = PDF[MultinormalDistribution[{-1, -1}, {{2, 1/2}, {1/2, 2}}], {x, y}];
dens2[x_, y_] = PDF[MultinormalDistribution[{1, 1}, {{1, 0}, {0, 1}}], {x, y}];
piece1 = NIntegrate[dens2[x, y] Boole[dens1[x, y] > dens2[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece2 = NIntegrate[dens1[x, y] Boole[dens2[x, y] > dens1[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece1 + piece2
Yaroslav Bulatov
fonte
4
Boa resposta. Poderia, por favor, fornecer comandos para reproduzir suas belas figuras?
11554 Andrej
3
(+1) Esses gráficos são lindos.
COOLSerdash
1

Parece que você pode fazer isso de duas maneiras, dependendo de quais suposições do modelo você está feliz em fazer.

Abordagem Generativa

Assumindo um modelo generativo para os dados, você também precisa conhecer as probabilidades anteriores de cada classe para obter uma declaração analítica do erro de classificação. Consulte Análise Discriminante para obter o limite ideal de decisão de forma fechada e calcule as áreas do lado errado para cada classe para obter as taxas de erro.

Suponho que isso é a abordagem pretendida pela sua invocação do classificador Bayes, que só é definido quando tudo sobre o processo de geração de dados é especificado. Como isso raramente é possível, vale sempre a pena considerar a

Abordagem de discriminação

Se você não deseja ou não pode especificar as probabilidades da classe anterior, pode aproveitar o fato de que a função discriminante pode, em muitas circunstâncias (aproximadamente, distribuições condicionais da classe da família exponencial) ser modelada diretamente por um modelo de regressão logística. O cálculo da taxa de erro é então o do modelo de regressão logística relevante.

Para uma comparação de abordagens e uma discussão sobre taxas de erro, Jordan 1995 e Jordan 2001 e referências podem ser interessantes.

conjugateprior
fonte
0

Na classificação com classes balanceadas, a taxa de erro de Bayes (BER) é exatamente igual a , onde é a distância total de variação entre as distribuições condicionais + ve e -ve dos recursos. Veja o Teorema 1 deste artigo .(1TV)/2TV

Para concluir, não é difícil encontrar boas referências computando a TV entre distribuições gaussianas multivariadas.

dohmatob
fonte